人文社科专题数据库建设的主题选择研究论文

·专 题·

人文社科专题数据库建设的主题选择研究

刘雨农 吴柯烨 权昭瑄

(南京大学信息管理学院,江苏 南京 210023)

摘 要: [目的/意义]探索一种融入数据驱动思维的人文社科专题数据库建设主题选择方法,为相关主体在建库主题的遴选、比较和确定等工作提供决策参考。[方法/过程]从政策、用户两个维度出发,提出基于政策文本与检索数据的人文社科专题数据库主题筛选框架。以Fulink平台为例,基于政策文本LDA主题分类建模和检索数据的词频统计归类,确定专题数据库建设备选主题,最后通过比对筛选将主题进行分类。[结果/结论]本文构建的主题选择框架,能够有效提升相关主题选择工作的全面性、准确性、科学性,为人文社科专题数据库建设的项目规划等提供了良好的思路。

关键词: 人文社科;专题数据库;主题选择;LDA

专题数据库是针对用户信息需求,对某一专题的信息进行收集、分析、处理、存储并按一定的标准和规范将其数字化的信息资源库。在人文社科领域,专题数据库已成为各学科数字化转型的基础性工作,在数据资源开发、科研内容创新、科研方法支持等方面提供了有力支持。近年来,在国家政策支持和现实需求的双重作用下,我国建成了一系列人文社科专题数据库,涉及哲学、历史、艺术、文化等众多科学领域,有力地促进了人文遗产和社会记录的保存与传播,也有效支持了相关学科的研究工作。

主题的选择与论证是专题数据库建设的起点和开始,决定了专题数据库的建设方向和建设效果。然而,过去人文社科专题数据库的主题选择方式主要依靠建库主体的资源优势和决策者的经验判断,难以全面回应多方面的需求,进而限制了专题数据库的功能实现以及进一步的服务延伸。为此,本文提出了一种新的主题选择框架,通过对客观文本和行为数据的科学分析支持人文社科专题数据库建设,以期避免主观性、单一化决策带来的弊端,提高专题数据库主题选择的全面性、准确性与科学性。

1 文献综述

随着数字人文和社会计算的推进,人文社科领域对信息资源保障提出了更高的要求,专题数据库建设的理论和方法成为信息管理及相关人文社科学科的重要研究话题。目前,虽然针对主题选择的专门性研究仍不多见,但在数据库建设的综合性研究中已被大量提及,主要涉及以下3个方面:

乘客在手机端使用第三方支付展示二维码,在云购票机上刷码支付购买车票。或是用兑票二维码在售票设备上兑换车票,以实现线上购票线下兑票。这是一种线下(Offline)对线上(Online)的购票方式,手机端可离线,设备端必选在线,售票设备对二维码联机认证后完成出票。这种技术在广州、杭州等多个城市实现应用,上海地铁云购票机也已在商业旅游景点站和交通枢纽站上线。

1.1 专题数据库主题分布描述

经过多年发展,国内外建立起大量人文社科专题数据库,主题涵盖了历史、经济、文化等众多学科。部分学者对现有数据库主体分布进行了调查研究,如刘青等以州为单位,调查了美国特色数据库建设状况,并将其主题归纳为政治与政策、军事和战争、法律和法规、经济与就业等9个方面,同时指出,文化娱乐类专题数据库在全美州立图书馆中占比最大[1]。何小月等将专题数据库主题内容划分为学科专业、地域特色、名人特藏等7个方面,同时选择了中美20所高校的自建数据库进行横向对比,指出国内高校在学科专业和地域特色类数据库建设存在短板[2]。鄂丽君将调查样本扩展至我国所有“211工程”高校后得出了相反结论,认为学科特色和学校特色资源项目占总数比超过60%[3]。此外,陈钦明等同样针对不同性质的专题数据库主题分布进行了归纳[4-5]。这些研究尽管在专题数据库主题划分视角和划分粒度上存在差别,但是有助于明确人文社科专题数据库的建设现状和定位,能够为其他专题数据库建设主题选择提供参考。

1.2 专题数据库主题选择基本原则

1)理想型主题选择:教育、互联网与大数据

1.3 专题数据库主题选择方法与过程

相对于专题数据库主题选择原则,已有研究很少涉及具体的主题选择方法。王昶[6]提出了专题数据库主题选择策划工作的3步流程:第一,开展广泛的调查研究,初定主题选择方向;第二,开展专家评议和读者调研,确定主题选择的可行性;第三,考察建库资源与技术水平,明确主题选择内容。任航等[8]对长春市若干高等院校的在校艺术生进行了问卷调查,通过需求情况确定数据库主题选择。可以看到,当前专题数据库的主题选择方法依然以专家论证和问卷调查等方式为主,最终决策仍然依赖于决策者的经验判断。

构建LDA模型以分析每一篇文章的话题分布,利用训练完的模型将政策文本转化为话题分布函数,并将文本—主题向量与原文本合并,部分结果如图4所示。

2 人文社科专题数据库建设主题选择模型构建

本文通过前期多地、多主体访谈调研,确定了专题数据库国家需求和用户需求的主方向,并以客观数据为基础,构建人文社科专题数据库主题选择框架,以期为相关决策提供支持。模型建构路线如图1所示:第一,从政务公开平台中,获取国家相关部门政策文本全文,并进行文本预处理。同时从信息服务商检索系统后台获取特定时间段的用户检索数据,筛选有效检索语句;第二,提取政策文本中的实意性名词,并进行LDA主题建模,形成若干备选主题;第三,将采集到的检索语句分别提取关键词,利用BM25算法同机构已有文献资源进行匹配,通过排序和归纳筛选出备选主题词;第四,综合比对结果,对结果进行分类。

山洪灾害防御工作实行县、乡两级人民政府行政首长负责制,建立县(市、区)、镇(乡)、村三级群测群防组织指挥机构。在有山洪灾害防御任务的县级行政区,县级防汛抗旱指挥部统一领导和组织山洪灾害防御工作。有山洪灾害防御任务的镇(乡)也相应成立防汛指挥机构。防汛指挥机构下设监测、信息、转移、调度、保障等5个工作小组和2~3个应急抢险队(每队不少于10人)。各村成立山洪灾害防御工作组,并成立以基干民兵为主体的1~2个应急抢险队(每队不少于10人)。每个村、组均要落实降雨和水位、工程险情、水库巡查监测人员,确定信号发送员。

图1 人文社科专题数据库建设主题选择框架

2.1 需求调研与分析

满足不同层面、不同对象的信息需求是数据库长期建设运营和持续发展的核心动力。对于对象群体复杂、数据形式多样的人文社科领域,专题数据库的主题选择更应以需求为导向。不同性质的建库主体由于机构职能、服务对象等方面存在差异,专题数据库产品的需求内容和重心也存在显著区分。如公共机构建设的专题数据库普遍重视公共需求,为国家发展战略和公益事业提供支持;而商业性专题数据库则更加侧重于通过满足用户使用需求来扩大市场,实现自身盈利和发展。对此,本文将人文社科专题数据库需求归纳为两个层面:

第一,宏观层面的国家社会需求。人文社科专题数据库通常需要承担部分国家、社会层面的宏观需求,如为国家重大战略部署提供数据支撑、对非物质文化遗产进行保护与抢救、弘扬优秀历史文化传统、纪念特殊事件等。尤其是对于公共性质的建库主体,更应在宏观战略需求的背景下,有针对性地规划专题数据库建设,为相关政策提供有效支持。

本文以改性磷矿渣稳定后的Pb污染土为研究对象,通过毒性浸出试验、形态分布试验及矿物分析试验研究了不同改性磷矿渣添加量对Pb污染土浸出特性、形态分布和矿物成分影响规律并与相同添加量的水泥稳定土做对比.得到以下结论:

第二,微观层面的用户使用需求。作为人文社科专题数据库的直接使用者,用户的需求相对具体和明确。如科研人员对特定专题领域资料的集中需求,公众对某一主题知识的学习兴趣等。但由于不同用户使用动机、需求粒度、表达方式等存在差异,此类需求较为多元,调查和识别的难度较高。

对于用户使用需求,过去一般采取问卷、访谈等方式,在调查对象规模和代表性上存在一定限制。当前,由于人文社科领域的信息爆炸式增长和碎片化分布加深了信息的获取难度,搜索引擎逐步成为用户对于信息搜寻的主要工具。对此,本文以搜索引擎中的检索记录衡量用户的实际需求。

2.2 基于LDA的政策主题生成

其中,N 为贮藏文献的所有文档数量,n (q i )为包含了语素q i 的文档数。根据IDF 公式,包含q i 的文档数越多,其权重越低。

图2 LDA模型示意图

2.3 基于BM25算法的资源匹配

特定主题的人文社科专题数据库建设必须以充足的信息资源作为基础保障。尤其是对于检索关键词,必须同资源储备进行匹配,判断其是否具备专题开发条件。本文基于BM25算法,通过计算、排序每个检索词的BM25得分,实现主题关键词进行二次筛选。

BM25是二元独立模型的拓展形式之一。作为一种相关性排序函数,BM25模型根据计算给定检索词与文档的相关性得分并累加,进而对匹配文档进行排序。该模型由于算法设计较为灵活,被广泛应用于搜索引擎当中。范晨熙等通过将BM25模型与开源搜索框架Lucene结合,建立了BM25相关度搜索模型[9],何喜军等利用该模型,构建了专利转让索引库[10]。本文基于理论框架,对该模型进行了拓展与应用。

首先,对提取到的关键词进行语素解析,产生语素q i 。对于所有馆藏资源的摘要文档D ,计算每个语素Q i 与D 的相关性评分。最后,将Q i 相对于D 的相关性得分加权并求和,最终得到Q 与D 的相关性得分。评分公式为[10]

其中,k 1、b 为调节因子,f i 是关键词D 中出现的次数,dl 是D 的长度,avgdl 是资源库中全部文档的平均长度。

此外,IDF 公式如下:

LDA(Latent Dirichlet Allocation,隐含狄利克雷函数)模型是一种文档生成模型,即包含词、主题、文档三层结构的贝叶斯模型。该模型通过将文档—词汇矩阵转化为文档—主题矩阵和主题—词汇矩阵来实现主题的识别与生成[11]。作为一种非监督的机器学习方法,LDA在大规模文档中能够有效实现主题识别任务。简要来说,LDA主题生成过程可分为3个步骤,首先对语料库中的每一篇文档,从主题分布中抽取一个主题,其次对所抽取主题中所对应的词分布中抽取一个词语,最后充分阐述过程直至实现所有文档和所有单词的遍历。如图2表示。

3 实证研究

3.1 数据来源与实验环境

重庆—中国茶叶主要发源地之一,优质茶叶盛产之地。每隔几年,重庆茶叶学会和商会都会进行十大名茶的评选,永川秀芽多次被评为重庆十大名茶之一。

1)学习与应用的情况。大部分只有线上学习,线下应用活动很少,基本为零,线上学习与线下活动的融合度不够。教师被动地参加远程培训,对混合式远程学习的认识不够、认可度不高,出现挂机、代看等现象。并且教师缺少前期的学习指导,没有具体的学习目标,一些选修的课程与自己想要学习的内容不相符。即使一些学习者完成了学习任务,也没有将学习到的内容在线下的实际教学活动中应用,新教学理念下还是传统的教学方式,出现学用两张皮。教师只做到了“学习”,“实践”和“提升”远远达不到要求。实践过程是将学习到的理论知识真正内化的过程,只学不用,则国培计划的真正目的就没有达到。

表1 部分检索词

表1(续)

本文实验环境为Inter Core i7-7700HQ、2.8GHz、8线程CPU,8GB内容容量的PC机,家用标准版64位Windows10操作系统。集成开发环境为JetBrains PyChrm,部分功能基于Python语言编程,所用工具包包括Jieba、Numpy、Pandas、Nltk、Sklearn、Matplotlib等。

3.2 政策文本数据处理

LDA模型需要对分类数量进行预先设定。该数值一般采用困惑度确定,计算公式如下:

p (w )=∑zp (z |d )×p (w |z )

其中z 、d 分别指训练过的主题和测试集的各篇文档。分母N 是测试集中出现的所有词。一般来说,困惑度随主题数K增加而下降。如图3所示,通过计算,当K值取4时,困惑度曲线下降趋势趋近于稳定,此时K的取值为最佳数量。

图3 困惑度曲线

综上所述,已有研究充分重视了主题选择对专题数据库建设的重要作用,为专题数据库主题选择明确了原则和方向,提供了良好的思路和方法。然而,现有研究成果依然存在一定不足:第一,研究大多集中于宏观层面的原则性方针,在数据库建设的实际过程中很难转化为直接的、具体的行动方案,可操作性存在一定限制;第二,方法上依然以用户调查和专家咨询为主,带有较强的主观性,难以保证决策的科学性;第三,并未考虑不同性质的主体在数据库建设中的动机差异。在大数据、智慧数据的背景下,面对高速增长的数据存量和复杂化的信息需求,应在原则性、经验性探索的基础上,充分发挥数据分析等技术和方法的重要作用,为数据库建设主体的建库决策提供支持和参考。

图4 文本—话题概率分布(部分)

最后,根据以上结果,输出每个主题的前若干关键词,并以窗口形式展示。最终结果如图5~8所示。

政策文本是政府相关部门为了实现特定要求,以权威形式颁布的文件,是国家、社会需求最直观的表达和体现。在政府政务全面公开、自然语言处理技术快速发展的背景下,大批量政策文本的开放获取和深度挖掘已具备可行性。对此,本文通过挖掘政策文本内容,实现宏观需求的分析。

图5 LDA主题分类1输出结果

图6 LDA主题分类2输出结果

图7 LDA主题分类3输出结果

图8 LDA主题分类4输出结果

3.3 检索记录数据处理

通过Fulink后台,选择2019年检索记录,将输出结果按照词频排序,选择检索次数大于1 000的关键词,并将非人文社科范畴的词语剔除。最后,将检索词与资源库各类文本文档进行匹配,筛选出命中词汇。部分结果如表2所示。

本文从可测量角度出发,以福建省为例,通过政策文本衡量国家需求,通过检索数据反应用户需求。由于国家各级政策发布机关单位数量庞大,内容宽泛,本文仅选取国家文化与旅游部、福建省文化与旅游厅近5年发布的各类政策文本作为实证样本,通过爬虫工具获取原始文本后,手工剔除人事变动、财务审计等管理类文件,得到有效政策文本1 756条。检索数据从FuLink(福建省高校数字图书馆)平台后台获取,按照检索排行降序顺序,选择人文社科相关的检索条目,共计10 000条,部分记录如表1。FULink平台包含福建省53所成员馆,拥有完善的在线系统和稳定的访问流量,检索数据能够反映出省域内用户的一般需求。

表2 2019上半年人文社科检索词排行(部分)

不同于文本语料,检索记录多以单个检索词的形式表示,缺乏上下文语境,难以利用NLP技术进行主题识别。由于数据总量相对较少,因此本文选择人工方式判断检索词语义,并进行主题归纳。

附近沟谷发于地表水,河宽1~1.5m,深0.3~1m,水量60m3/h,水量随四季变化大。地下水为第四系潜水,水位埋深1~1.5m不等,储存于沙层和第四系地层中,补给主要靠大气降水及地表径流,排泄以蒸发和地下径流为主[1]。

他们专门为拍摄而创作或安排场景,所拍摄出的照片可能是对场景的一种记录或是一种反馈。乔治·博斯特罗姆(Jorg Bostrom,德国画家、摄影师和大学老师。)曾用“记录与发现”这两个术语定义了摄影艺术的两条本质上对立的道路。这种无意识的分立与追求,自尼埃普斯(Niepce)的《窗外的风景》(1827年)与达盖尔(Daguerre)的《静物》即已开始。

3.4 备选主题分类

比对上述两类主题分类结果,进行汇总、比对和分类,最终形成3类备选主题。

2017年6月,响应《浙江省教育技术中心、浙江省教育厅教研室、浙江省教育科学研究院关于组织申报浙江省数字教育资源应用实践基地学校的通知》,以校长为负责人,申报了浙江省数字教育资源应用实践基地学校,数学组承担基地校建设任务,初步完成了建设工作.建成资源418个,课程53个,目前空间访问量达到57万以上.微课主要内容来源于已经研发的系列微课程,授课时间在10分钟以内,视频配有相关课程说明和知识地图,在线联系和评价反馈,方便学生查找学习,小部分视频资源来源于教师优质课视频或讲座视频.

对于人文社科专题数据库在实际建库过程中产生的各类问题,部分学者从建库流程的角度进行探讨,认为主题选择的不科学、不合理是这些问题产生的重要原因之一,并以此提出了一系列主题选择原则。王昶认为,专题数据库建设是一项长期工作,主题选择应注重长期规划性和可持续性,以长远眼光和思路,根据现有条件选择符合实际状况的、成体系的特色主题[6]。刘青等提出主题内容广博化原则,认为专题数据库主题划分和内容深度上尽管存在差异,但应通过统一平台的整合,为用户提供全方位多系统的资源和信息服务[1]。徐大平等认为地方特色专题数据库的主题选择重点在于突出地方文化特色、体现地方文献特色,并提出了成系列小主题选择、科学性和实用性3个原则[7]。总体来说,这些原则可归纳为3点:第一,以需求为导向,能够切实满足用户长时期的信息资源需求;第二,突出特色性,力求避免在内容上同其他数据库的交叉和重复;第三,具有可操作性,根据信息资源体量和人力、资金等实际情况确定主题选择粒度,保证数据库质量。

通过比对,此类主题选择内容同时出现在政策主题和检索主题分类中。意味着在现有资源的基础上,能够同时响应国家和用户需求,建议优先作为专题数据库建设主题。

教育学与教育事业是人文社科领域的重要话题,大量职能部门均对教育事业发展进行了专门性部署,尤其是红色教育、传统文化教育、人文素养教育等方面近年来获得了极大关注。在用户层面,由于以高校图书馆联盟为实证对象,用户以高校学生为主,因此,数据库建设主要回应以备考或个人发展为目的的需求。显然,各类人文社科教育需要大量专门性文献资料为支撑,因此专门性数据库建设势在必行。

近年来,互联网与大数据为人文社科领域带来了巨大的变革,尤其是网络安全、电子政务、数据资产等议题正在引起相关部门的高度重视。此外,大数据更是为人文社科领域的研究提供了新的契机和方法,从检索数据来看,人文社科对于数据科学、编程语言、计算工具等方面的资料存在大量需求。

关联理论的核心就是寻求最佳关联性原则,即人类的交际行为都会产生一个最佳相关性的期待,接受者要确定交际者的交际意图,就必须在交际双方共知的认知环境中找到对方话语和语境之间的最佳关联,通过推理推断出语境的暗含意义,从而获取语境效果,达到交际的目的。

2)政策导向型:非物质文化遗产、旅游

配送作业流程优化包括:配送中心工作要求的详细制定,严格按照配送中心工作要求,合理布局配送中心储位、拣选区、理货区、流通加工区以及其他区域,制定智能拣选工作流程,配送中心员工岗位安排合理,实现智能人工拣选,并按照要求规范拣选操作,安排合理培训,提高员工信息化素养。

此类主题选择通常侧重于公共性建库主体,能够有效回应国家政策要求,有助于发挥其公共文化服务等方面的职能。

非物质文化遗产和旅游是人文社科专题数据库的传统主题选择,从研究结果来看,非遗资源保护和旅游产业发展依然是当前文化及相关部门的工作重心,从中央到地方均有大量政策部署。在数据库建设过程中,建库主体可围绕本地资源,进行针对性的数据采集与加工整理,着力打造出具有地方特色的文化品牌。同时,不断拓展数据库的开放程度,并开展宣传推广工作,进而服务于地方旅游产业。

3)用户导向型:文学、经济学、语言

此类主题选择能够反映用户的现实需求,具有良好的市场前景,一般来说更加符合商业性的建库主体性质,而对于高校、科研院所等实际科研需求也能做到有效回应。与政策导向不同,用户需求更为多元,其影响因素也更加复杂。在本文的实证研究中,用户需求更多地集中于在文学、经济学和语言3类。其中文学作品相对于其他人文社科学术性资源来说,学科门槛较低,受众面更广。而经济学原理和方法对包括社会学、管理学、国际关系在内的多种学科同样实用,因此存在大量记录。而语言方面的需求则以英语学习材料和工具书为主,这是由高校用户对于等级考试、外文学术资源等硬性需求决定的。

知识服务源于20世纪90年代,是在知识经济浪潮和信息技术发展推动下,适应社会对知识共享与创新的需求而产生的。通过归纳总结,发现各学者对知识服务的研究主要集中在“定义、特征、流程、系统”等方面。而专门针对知识服务的经济后果的研究,各学者尚未进行专题研究。

4 结 语

本文构建了一种人文社科专题数据库建设的主题选择模型,为专题数据库的主题选择提供了一种全新的思路和方法。相较于以经验性判断为主的常见模式,本文通过对政策文本和用户访问记录进行深入挖掘和匹配,有助于进一步提高专题数据库建设决策的科学性、实时性和前瞻性。

需要注意的是,本模型面向人文社科专题数据库建设的决策支持,希望通过多渠道大样本的数据分析为专题数据库的主题选择工作提供科学有效的备选方案,这意味着该方法无法完全替代决策工作。专题数据库建设是一项复杂、持久的工作,不同地区和不同性质的建库主体均存在较大差别,也受到资金、技术、人员等因素的制约,建库人员的经验和价值判断依然具有不可替代的作用。在专题数据库的规划和论证过程中必须紧密结合自身实际情况,因地制宜地开展数据库建设工作,才能形成质量上成、功能完备、影响广泛的数据库产品。除主题选择外,建库方式、服务模式、推广方法的选择对专题数据库的发展同样具有重要影响。

此外,本文实证研究部分初步验证了模型的可行性,但在政策文本数量、馆藏资源类型、用户需求类型等方面仍存在进一步拓展和精细化的空间。在未来的研究中,可通过扩充数据源的广度和粒度,进一步提高模型的适用性和有效性。

参考文献

[1]刘青,高波.美国州立图书馆特色数据库建设研究[J].图书馆,2017,(3):72-80.

[2]何小月,雷锦怡,江翩翩.中美高校图书馆自建数据库比较研究[J].图书馆学研究,2019,(6):40-48.

[3]鄂丽君.高校图书馆特色馆藏建设的现状分析[J].图书馆建设,2009,(12):19-23.

[4]陈钦明.福建省高校图书馆自建闽台特色数据库现状调查与分析[J].图书馆学研究,2018,(3):48-52.

[5]孙瑾.军队档案专题数据库建设现状及存在问题——兼论数据组织阶段质量控制[J].档案学研究,2013,(3):41-45.

[6]王昶.自建数据库选题策划机制研究[J].图书馆学研究,2012,(6):41-43,27.

[7]徐大平,郎菁,梁芬玲.地方特色专题数据库选题若干问题研究——以陕西地区为例[J].情报杂志,2012,31(2):174-177.

[8]任航,潘逸尘.高校图书馆艺术教育主题服务内容、途径与策略研究[J].情报科学,2018,36(12):83-89.

[9]范晨熙,黄理灿,李雪利.基于Lucene的BM25模型的评分机制的研究[J].工业控制计算机,2013,26(3):78-79.

[10]何喜军,张婷婷,武玉英,等.供需匹配视角下基于语义相似聚类的技术需求识别模型[J].系统工程理论与实践,2019,39(2):476-485.

[11]张子振,储煜桂,吴小兰.基于LDA的多源文献主题及其差异研究——以“机器学习”为例[J].情报科学,2019,37(6):108-112,150.

Research on Topic Selection of Humanities and Social Sciences Thematic Database

Liu Yunong Wu Keye Quan Zhaoxuan

(School of Information Management,Nanjing University,Nanjing 210023,China)

Abstract :[Purpose/Significance]This paper explored a topic selection method for Humanities and Social Sciences database with>Key words :Humanities and Social Sciences;thematic database;topic selection;LDA

DOI: 10.3969/j.issn.1008-0821.2019.12.002

〔中图分类号〕 G250. 74

〔文献标识码〕 A

〔文章编号〕 1008-0821( 2019) 12-0011-08

收稿日期: 2019-10-14

基金项目: 国家社会科学基金重大项目“人文社科专题数据库建设规范化管理研究”(项目编号: 18ZDA326)。

作者简介: 刘雨农 (1991-),男,博士研究生,研究方向:智慧城市、社会网络。吴柯烨 (1996-),男,硕士研究生,研究方向:自然语言处理。权昭瑄 (1996-),男,硕士研究生,研究方向:金融大数据。

(责任编辑: 郭沫含)

标签:;  ;  ;  ;  ;  

人文社科专题数据库建设的主题选择研究论文
下载Doc文档

猜你喜欢