文献作者数据的采集与处理论文

文献作者数据的采集与处理

陈道兰

（重庆文理学院图书馆，重庆 402160）

摘要：验证文献作者分布规律过程常常需要采集大量的作者数据。文章简要地介绍了利用知网、维普、万方数据库和期刊主页批量采集文献作者数据的多种方法，同时也介绍了文献作者信息在第一作者的分离、作者频次的统计方面的处理技巧。

关键词：作者数据；采集；处理；数据分列；数据透视

0 引言

作为科学计量学与文献计量学的经典定律，洛特卡定律和普赖斯定律揭示了科学工作者人数与其所著论文之间的关系^［1］。洛特卡定律描述了科学生产率的经验规律：写n篇论文的作者人数约为写1篇论文作者人数的1/n²；普赖斯定律指出核心作者人数约等于全部作者总数的平方根，核心作者撰写了全部作者的半数论文。自从洛特卡定律和普赖斯定律诞生之后，学界掀起了定律适用性验证的热潮^［2-5］。在适用性验证的过程中，常常会涉及大量的作者数据的采集与处理，大量的作者数据的采集是研究洛特卡定律和普莱斯定律适用性的一个无法回避的问题，逐条采集每篇文献的作者信息是不可取的，因此如何批量采集作者信息是一个值得研究的课题。本文就中国知网、重庆维普、万方数据库以及相关期刊主页，结合作者数据采集的实际做法做一个简要的阐述，期望能够对相关学者在研究作者分布规律问题的过程中起到借鉴作用。

1 文献作者数据的采集方法

1.1 中国知网数据库的作者数据采集方法

中国知网作为集期刊、博硕论文、专利等资源为一体的网络出版平台，业已成为大多数科研工作者首选的数据库。利用中国知网数据库采集期刊文献作者信息时，有多种方式可供参考。

①人为主观意愿特征。人类对水生态的需求是随着生活水平的提高而提高，从被动适应到主动改造，再到“适应+改造”相结合，水生态文明建设中无处不体现出人类的主观意愿。②多学科交叉特征。水生态文明建设是对水生生态系统、有水力联系的陆地生态系统与城市水生生态系统的改造和适应过程，涉及的对象广泛、学科多样，具有明显的交叉特点，因此在建设过程必须统筹兼顾。③符合未来全球水资源管理理念的发展趋势。当前，世界各国在水资源管理中都非常强调人水和谐的理念，如荷兰开展了“予河流更多空间”的水生态系统改造工程，建设理念超前。水生态文明建设符合未来水资源管理的先进理念，是我国未来水资源管理的重要方向。

近年来，每年近70%的云南蔬菜产品销往全国150多个大中城市和40多个国家和地区，云南已逐步成为全国重要的“南菜北运”和“西菜东运”基地。

方法1：打开中国知网首页，在高级搜索页面下选择文献来源及需要采集的年限后，出现以“主题排序”的文献题名及作者信息。在该页面中勾选需要采集的文献，点击“下一页”，直到勾选完所有需要采集的文献；勾选完成后，点击“导出/参考文献 ”按钮，在出现的“文献管理中心_文献输出”页面中点击“自定义”按钮，然后在页面的右上方选择所需要采集的字段。最后在该页面中选择按钮“XLS”，将需要采集的数据以Excel表格进行保存。

方法2：在中国知网高级检索页面下，期刊的某些年份的文献信息有可能没有完全显示出来。此时可在该页面下点击所显示文献中的期刊名称，出现中国知网下该期刊的介绍页面，然后在该页面左下方出现知网收录的年份情况。点击某一年份的某一期后，在该页面的右下方出现该期的目录，包括文章的题名及作者信息。将需要采集的文献及作者信息选择后，进行复制粘贴，保存到Word文档即可。

方法3：在维普的高级检索页面下，输入篇名“目次索引”和文献来源（需要检索的期刊名称）等检索条件，其余步骤与中国知网的检索方法3相似。

1.2 维普数据库的作者数据采集方法

通过期刊主页采集到的数据已经是Word表格，此步不必处理。

方法2：与中国知网的检索方法1相似。进入维普网高级检索页面，在任意字段栏选择“刊名”，然后在该栏输入需要采集的期刊名称，在“时间限定”栏中选择需要检索的起止年限后，点击“检索”按钮，出现检索到的文献“题名”“作者”“出处”“发文年”“被引量”等信息。在该页面中勾选需要采集的文献（或点击“全选”按钮），点击“下一页”，直到勾选完所有需要采集的文献；勾选完成后，点击“导出题录”按钮，在出现的新页面中点击“自定义导出”按钮，然后在页面的下方选择所需要采集的字段。最后在该页面中点击“确定”按钮，将需要采集的数据保存到以“*.txt”为文件名的写字板文件中即可；也可以点击“Excel导出”按钮，将采集到的数据以Excel文件形式保存。

方法3：一般地，期刊在每一年的最后一期会将该年度发表的文章题名及作者信息以目次索引的方式汇总。可以在中国知网的高级检索页面下，输入检索条件：篇名为“目次索引”，文献来源为所需要检索的期刊名，则在文献显示页面中出现该期刊各年的目次索引。将所显示的目次索引下载后即可得到文献作者信息。需要注意的是，该方法不一定能得到所有年份的数据，需要结合其他方法。

1.3 万方数据库的作者数据采集方法

方法1：进入万方数据库主页后，选择“期刊”，输入要检索的期刊名称，点击“搜期刊”按钮，出现该刊的简要介绍信息，然后点击该期刊名称，出现含有期刊封面图标的期刊介绍。在出现的页面左下方有该期刊收录的“年份刊次”汇总。点击某年某期后，该期的目录则呈现在新页面中。此时有两种方法可供参考。第一种方法是进行选择复制粘贴，保存到Word文档中即可；第二种方法是勾选所需要采集的文献，点击下一页，直到勾选完所有需要检索的文献，然后点击“导出”按钮，在出现的新页面左下方点击“自定义格式”按钮，选择需要导出的字段，再点击“导出”按钮，将所需要采集的数据保存到以“*.txt”为文件名的写字板文件中即可。

从上面所介绍的各种文献作者数据的采集方法看到，所采集到的数据的保存格式不尽相同。为了提取作者（特别是第一作者）信息，需要对所采集到的信息进行处理。下面就不同保存格式进行说明。

作为英语教师在上课的时候如果还是用母语，也就是汉语给学生讲课，既影响学生听力能力的锻炼，也影响英语听力氛围的营造。因此，教师要在课堂教学中尽量用英语和学生沟通，从课前的复习到提问、到课中的提醒、点拨还有作业的布置等，让每个环节都成为学生练习听力的途径，给学生创造浓厚的英语听力氛围，帮助学生提高学习的热情，不断提高学生的听力能力。

1.4 期刊主页下的文献作者数据采集方法

部分期刊开通了期刊主页，可以通过期刊的主页进行文献作者数据的采集。以期刊《情报学报》为例，先通过百度搜索到《情报学报》，打开该期刊的主页，在该期刊主页左边出现该刊的“年期列表”，点击某年某期后，在页面右边“本刊收录年代”，点击“更多”，则出现所有收录的年代列表。在收录年代的下方则出现文章列表，选择所需要采集的文献作者数据，复制粘贴到Word文档中即可（该方式复制粘贴到Word文件中的数据是以Word表格形式保存的）。

本区褶皱和断裂构造非常发育(图3)，大地构造单元均以长期活动深大断裂为界。龙首山成矿带大地构造上属于华北地台南缘的三级构造单位—龙首山拱断带，其南部为北祁连加里东褶皱带。龙首山拱断带基本构造线成NW向展布，整体表现为一个轴向北西、向南西倒转的复式向斜，由于后期构造运动破坏，使得形态很不完整。断裂构造极其发育，以NW向压扭性逆冲断裂为主，次为近EW向和NE向断裂。

2 文献作者数据的处理方法

方法2：在万方数据库高级搜索页面下的检索信息栏，选择“期刊名称/刊名”，输入所要采集的期刊名称，点击“检索”按钮，勾选所需要采集的文献，点击下一页，直到勾选完所有文献，然后点击“批量导出”按钮，在出现的新页面中再次勾选“全选”按钮（很重要），再选择“自定义格式”，选择需要输出的字段后点击“导出”按钮，将所采集的数据保存在写字板文件中。

2.1 采集的数据先处理成Word表格形式

通过万方数据库方法1，2和维普数据库方法2采集到的作者信息是以写字板形式保存的。先将写字板里面的内容复制粘贴到一个空的Word文件中，然后将每一篇文献的数据修改成同样条数的数据，再将所有数据通过Word的“文本转换成表格”功能，将含有作者信息的内容放在Word表格的同一列。

如果需要对第一作者的频次进行统计，则需要用到Excel的数据透视表功能^［6］。具体操作方法是：先在所有数据的第一行之前插入1行，在新的第1行作者列上方输入“作者”，在作者列的右边插入1列，在作者的右边1列单元格都输入数字“1”，然后在插入的1列的第1行输入“频次”。选择作者和频次这两列，点击“数据—数据透视表和数据透视图”，点击“下一步”“完成”，在出现的新页面中，将“作者”拖至“将行字段拖至此处”的地方，将“频次”拖至“请将数据项拖至此处”的地方，得到数据透视表。在数据透视表中选择“汇总”所在列，按降序排列，得到作者出现的频次统计结果。

陈锦文(1860—？)，谱名文贵，字俟庐，号丹宣，又作丹轩，浙江诸暨人。廪贡生兼袭云骑尉，肄业敷文书院与诂经精舍。为傅江峰弟子。《梅岭课子图》仅见其书法作品“梅岭课子图”一幅。

2）及时关注专门的英语学习微信平台，如：蔡雷英语、里昂之声等，选择难易适当的听力材料进行听力学习，可以从VOA慢速英语开始训练，逐步过渡到VOA正常英语和BBC英语听力。

通过知网方法2、维普方法1采集到的数据是以文字形式保存在Word文件中的，同上所述，将每一篇文章及作者信息修改成两栏内容，再通过“文本转换成表格”功能，将含有作者信息的内容放在Word表格的同一列。

方法3：同知网方法3，不再赘述。

方法1：进入维普网主页后，选择“期刊大全”，在“期刊名”中输入要检索的期刊名称，点击“搜索”按钮，出现该刊的介绍信息，然后点击该期刊名称或图标，在出现的页面最下方有该期刊的收录汇总。点击某年某期后，该期的目录则呈现在新页面中，然后进行选择复制粘贴，保存到Word文档中即可。

2.2 将Word表格形式的数据转换成Excel表格

将所处理得到的Word表格数据复制粘贴到空的Excel表格，此时作者的信息应在同一列，但是某一行中可能会出现多个作者。如果只采集第一作者信息，则需要通过Excel表格的分列功能，将第一作者和其他作者进行分离。具体操作方法是：先选择需要分列的作者单元格，点击Excel工具栏的“数据—分列”，点击“下一步”，在“文本分列向导3步骤之2”中选择分隔符号，勾选需要的分隔符（一般地，所采集的信息中作者之间常用分号分隔，故一般都要选择分号作为分隔符），再点击“下一步”“完成”，就可以把第一作者同其他作者分离开来。有时候作者名之后会出现标注第几作者的信息，如“张三；王四”，此时在选择分隔符时，就需要勾选“其他”，然后在“其他”选项后填入左中括号“［”。

通过知网、维普、万方数据库采集到的“目次索引”是以Caj或Pdf格式进行保存的，将所下载到的Caj或Pdf文件进行复制粘贴到空的Word文件中，然后将每一篇文章及作者信息修改成两栏内容，一栏是文章题名，一栏是作者信息，再通过Word的“文本转换成表格”功能，将含有作者信息的内容放在Word表格的同一列。

3 应用举例

下面以采集期刊《江苏科技信息》的作者信息为例介绍上面方法的操作要领。在中国知网高级搜索页面的“文献来源”栏中输入《江苏科技信息》，点击“检索”按钮，只能搜索到1994—2019年的文献。在该页面中勾选需要采集的文献，点击“下一页”，勾选前500篇文献，点击“导出/参考文献 ”按钮，“自定义”按钮，再勾选需要采集的字段。然后选择按钮“XLS”，将数据以Excel表格进行保存。由于中国知网一次最多只能勾选500篇文献，因此要将原勾选的文献进行清除，以便选择剩余的文献。然后回到勾选文献的页面，点击清除按钮，以清除掉刚才勾选的文献。再点击“下一页”，勾选剩余的文献，重复前述操作，直至保存完所有作者信息。

《江苏科技信息》创刊于1984年，因此中国知网没有将所有文献收录完全。其余文献可以从其他数据库进行查找。如在重庆维普数据库中可以查找到《江苏科技信息》1989—1993年的部分文献。具体地，进入维普网高级搜索页面，在“刊名”栏输入《江苏科技信息》，点击“检索”按钮，查找到1989年到1993年的226篇文献，勾选所有文献，点击“导出题录”按钮，在出现的新页面中点击“Excel导出”按钮，将需要采集的数据保存到Excel文件中。从上面两大数据库所查找到的文献依然不完全。不过，通过上述途径查找到的文献占据了几乎95%的文献，因此大体上能体现作者分布规律。

由图4可知，黄精浸提液不同添加量对黄精酸奶稠度的影响呈现先上升后降低的趋势，添加0.5%黄精浸提液时稠度最大；不同添加量黄精浸提液对黄精酸奶坚实度的影响不显著，同样呈现先上升后下降的趋势，在添加量0.6%时坚实度达到最大，其次为添加量0.5%，结合对黄精酸奶稠度的影响，确定黄精浸提液添加量为0.5%时，黄精发酵酸奶的质构性最好，因此黄精酸奶质构分析得出黄精浸提液的适宜添加量为0.5%。

将上述保存的多个Excel表格中的“作者”列全部复制到新表格中，分离出第一作者，然后按照作者频次的统计方法统计出第一作者的频次，频次排在前18的作者结果如下。

王遐（45）、蔡忆宁（38）、王永顺（23）、郭巍（22）、宋汝贤（22）、唐宝莲（20）、夏雷（16）、曾永沪（14）、甘利人（13）、游磊（12）、陈静（11）、杨水旸（11）、胡正强（10）、李敏（10）、马永浩（10）、吴林海（10）、夏太寿（10）、常海星（9）。

得到第一作者的频次统计结果后，就可以按照洛特卡分布验证方法，得到洛特卡分布特征参数值，从而就可以验证期刊是否服从洛特卡分布规律了。

4 结语

由于在验证作者分布规律过程中需要采集大量的作者数据，逐条采集每篇文献的作者信息是不可取的，因此常常需要进行批量采集作者信息。上面所谈到的各种方法为批量采集作者信息提供了可行性，但同时也要看到，单靠一种方法有时候不能采集到所有信息，因此常常需要将多种方法、多种数据库结合使用，才能采集到理想的数据。上面所谈到的数据采集方法不局限于作者信息的采集，还可以类推到诸如用于构建共词矩阵的关键词信息采集等方面。

参考文献

［1］D·普赖斯，张季娅.洛特卡定律与普赖斯定律［J］.科学学与科学技术管理，1984（9）：17-22.

［2］周爱民.含零等级数据的洛特卡拓展模型［J］.图书情报工作，2013（1）：78-82.

［3］张海燕.乘幂拟合法在确定洛特卡分布和定律参数中的应用［J］.图书馆论坛，2014（1）：18-21.

［4］陈道兰.广义洛特卡分布特征参数的稳定性研究——以《情报理论与实践》为例［J］.情报理论与实践，2014（8）：28-31.

［5］陈道兰，毛一波.广义洛特卡分布特征参数解区间波动研究［J］.情报探索，2018（5）：21-25.

［6］任静.Excel 2016入门与提高［M］.北京：人民邮电出版社，2016.

Research on data acquisition and processing of document authors

Chen Daolan
（Library,Chongqing University of Artsand Sciences,Chongqing 402160,China）

Abstract: In the process of verifying the author’s distribution law,a large amount of author data is often needed.This paper briefly introduces the various methods of data collection by means of CNKI,CQVIP,Wanfang database and homepageof journals,and processingskillsof separation and frequency statisticsfor thefirst authors.

Key words: author data;acquisition;processing;data breakdown;data perspective

中图分类号： G272

文献标识码： A

基金项目：项目名称：共词矩阵的构造及其在文献聚类分析方法中的应用；项目编号:Z2016TS72。

作者简介：陈道兰（1970—），女，重庆人，馆员，学士；研究方向：信息咨询和读者服务。

（责任编辑王永超）

标签：作者数据论文; 采集论文; 处理论文; 数据分列论文; 数据透视论文; 重庆文理学院图书馆论文;