知识组织概念模型的应用--以组织研究数据为例_大数据论文

知识组织概念模型的运用——以组织研究数据为例，本文主要内容关键词为：组织论文,为例论文,模型论文,概念论文,知识论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 引言

对研究数据加以组织的目的是：对研究数据进行有效的分析。数据组织常用的方法是定量的、定性的和文本的（QQT），这些方法基本都有自己的框架。

在情报学领域，通过检测专指性、网罗性、相关性及其它以主题分析过程为中心的因素，信息组织和检索策略的有效性得以提高。如果将研究过程与知识组织的概念和技巧联系起来，那么，在有效的数据准备方面，研究者、教育者、学生和从事跨学科研究的评论者（包括图书馆学和情报学研究）将受益于这种新的有价值的方法。

在研究之前，如果采用定量方法，就先选择定量方法所涉及的有关概念、变量和假设，并在整个数据收集和分析过程中保持不变。再通过演绎过程，让理论和假设接受检验，发展成归纳结果。此结果使研究者能预测、解释和理解某种现象。如果采用归纳和定性方法，那么主题代码来自随后数据收集过程中所采集到的信息。通过分析收集到的数据之间的关系，这些代码有助于发展那些解释不同现象的模型和理论。文本分析法的特征与定量和定性方法相似：先根据主题和话语选择文本，再通过仔细阅读将这些话语展示出来。

本文提出的数据分析技术可能适用于QQT方法。该技术弄清了数据准备方面智力工作的过程，并把为知识组织而建立的核心概念与组织研究数据过程中的3个方面联系起来：①明确组织研究数据中的问题。②解释知识组织的概念模型。③对该模型应用于图书馆学情报学领域QQT的例子加以扩展。

2 知识组织概念模型

当对知识组织的主要概念及其相互关系进行广泛解释时，这些概念及其相互关系可为准备分析数据的智力工作提供一个模型。可以把这些概念和关系发展成一个简单的知识组织模型（见图1），以便比较容易地把它们应用于对研究数据的组织。这个模型在应用于组织研究数据的过程中是非传统的，但其基本概念与把对知识组织的理解应用于建立和评价信息检索（IR）系统时是相同的。

图1 知识组织概念模型

知识组织（KO）模型的焦点是从大量信息中检索出相关信息。在将此模型运用到研究数据时，相关性是根据所收集的数据和编码的信息是否有助于回答研究课题和研究假设来确定的。这个标准与用于检索提问或用户需求的相关性概念相似，只是在组织研究数据的情况下，专指研究课题。与确定从信息检索系统中检索出的文献的相关性类似，研究数据的相关性是一个多层面的概念。可以把有关研究课题的特定数据的相关性看成与主题性类似。

相关性也可理解为近似性（aboutness），即文献（数据）是关于什么的看法可以直接反映在标引（或编码）中[1]。然而，对近似性的更广泛的看法可能包括预测用户的需求，而一个对相关性的面向用户的看法，除了要考虑主题的简单意义外，还要考虑效用和环境因素。同样，在考虑数据编码与研究课题的关系时，必须考虑到这些潜在因素。

当把KO模型用于组织信息的时候，该模型通过标引从受控词汇的选择流经它的运用，以便为检索创建一个逻辑上组织完备的数据库。

3 研究数据的组织

在为进行数据分析而组织数据方面，最终目标是把原始数据变成一条美丽的“数据彩虹”，将预定类目或出现的主题（像光谱那样颜色各异）填充到一个对给定的研究课题有意义的拱形结构中。但几乎没有哪项研究能够实现这个目标。在分析过程中，主题像棒（stick）的颜色一样被辨认，但必须仔细地从棒堆中挑选。在最坏的情形下，数据会像绘制油画时那样——颜色从多个方向喷射出来。可以辨认潜在主题，或者参与者可以从预定类目中选择。但总的来说，这些数据几乎没有给出准确的分析方向。那么，研究者怎样准备和管理数据，以便使最终结果更像彩虹，而不像飞溅物呢？本文提出了一个可能的解决办法：把知识组织的核心概念运用到研究者的实际数据分析过程中。

在研究者努力追求“数据彩虹”目标的过程中，对有效地管理数据的要求散见于不断修正的方法论文章中，但这些文章缺少对完成有效的数据管理的指导。例如，D.A.De Vaus[2]描述了在问卷设计中把研究概念转变成定量指数的过程。他认为，许多指数的设计是相当容易的，如婚姻状况、教育水平等。而有的指数的设计却更复杂、更困难，如社会隔阂等。又如，B.F.Crabtree和W.L.Miller[2]总结出4种定性分析风格并与研究技术（从内容分析到运用）联系起来。这4种风格都强调类目形成对数据分析过程的重要性。在研究的文本分析法中，J.Barzun和H.F.Graff[2]认为同样需要进行组织：“做笔录、文摘、标引和分类的方法适用于研究的任何主题”。他们强调，必须对从作为资源使用的文本中抽出来的陈述进行分类，特别是有关历史方面的。M.Foucault[2]则强调，必须放弃陈述间已建立好的联系，通过辨认以前不明显的主题，重新确定它们在不同话语中的角色。

上述有关方法论的论文通过制定定量分类、创建定性编码和为后面的分析识别文本主题，来指导研究者。尽管如此，这些文献中的两个关键倾向容易导致此过程的复杂化。首先，有关方法论的论文容易掩盖有利于讨论数据收集与分析的变量分类和数据编码以及写作的过程。例如，De Vaus提出建立恰当的定量类目，列出3个选项供研究者考虑：第一，检查在其它研究中也建立和使用的测度，以选择恰当的类目（或类目的词语表示）；第二，与那些对正在研究中的问题有深刻了解的人（报告者）交谈，以获得对适当问题和术语的洞察力；第三，把定性方法（如观察或非结构化访谈）作为第一步，以形成在定性研究中所使用的恰当类目。

有关定性方法的论文在讨论编码形成过程时相当简要。例如，Crabtree和Miller指出，应用基础理论的目标是“在所调查特定社会环境中形成分类和理论”。但他们没有为这些分类过程的形成提供指导。人文学科研究中使用的文本分析法，很少像社会科学中早期的定性或定量方法那样在文献中有明确的记载。但在不同情况下都出现了对“数据”加以组织的问题，由于文本研究的数据选自不同类型文本的陈述，所以，关键问题是收集了多少数据。

Barzun和Graff提及用于选择陈述和对其进行分类的相对网罗性和专指性，但没有探讨这些活动的细分和怎样根据结果来调整。所遵循的惯例是：在索引卡片上作笔录和用关键词对它们进行分类，然后组织成分析用的提纲。这种结构的提问也出现在后结构化研究中，就像相互对立的事物（在等级结构上一分为二，如“男性/女性”或“理智/情绪”），它们是解构的基础[3]，或者把陈述划分成主题，并在话语分析中举例说明话语[4]。

这些论文的第二个明显倾向是集中研究电脑软件包为数据分析带来的好处（如SPSS和Ethnograth）。S.J.Zyzanski等人[2]指出：“现在有了电脑程序，这使得分析任务更加容易。许多文字处理机有数据管理功能，它能做数据录入、数据识别和数据处理等必需的任务。也具有文本检索、数据管理和各种分析功能。这些是非常必要的，因为定性研究经常产生大量的口头文本，这就需要编码、存储、解释和利用，并在文本分析技术的基础上进行总结”。

人文学科的计算为文本研究提供了丰富的潜力，但它仍处于开发初期。这个时期的编码系统（如文本编码规范[TEI]）和标记语言大多用于文本描述而很少用于分析。这些应用都不能在需要形成编码的智力工作方面提供指导。这些编码在软件程序中容易查询和检索，并且与当前的研究课题相关。如果研究者的编码像“数据飞溅物”，软件就不能帮助分析了。

4 知识组织模型在组织研究数据中的运用

4.1 知识组织模型的定量运用

在定量方法中，有关专指性和网罗性的决策取决于如何定义变量及其价值。网罗性与选择什么变量和选择多少变量有关。传统而可靠的做法是只收集那些必须满足研究假设的数据，这实际上是一个网罗性问题，因而应该选择能收集并与这些假设有关的数据的变量。由于最好的定量研究能够在合理假设和事先了解该研究课题（通常是早期描述性研究的成果）的基础上验证它们的变量，因此，可以某种信度来定义相关变量。其结果是一定水平的网罗性和由此产生的适合于特定假设的查全率。每个变量的值将决定数据的专指性和查准率水平。例如，许多有关图书馆的研究通过定量调查设计探讨用户使用图书馆资源的情况。在这里，可对“使用”采用不同方式进行分类（如借出图书馆、馆内阅览、复印），这些类目不仅为恰当的调查问题的形成提供信息，还为分析软件包（如SPSS）中确定数值提供信息。根据合理假设、初步探讨和研究课题确定这些值，将使得相关数据的集合更可能有一个较理想的查准率水平，并为有效分析设定框架。

下面的例子取自于L.M.Given[2]的学位论文，该项研究是关于成年本科生因被社会看成“学生”，其学术信息行为受到影响的问题。研究包含两个部分：①处理加拿大人口普查和大学的数据，以检查在加拿大接受正规教育的成年学生的人口统计和学术特点。②深入地定性调查25名加拿大成年本科生，探讨对“学生”生活的个人看法和他们的信息查询活动。在此研究中，设计定量方法的第一步是处理“成年大学生”的概念。然后把这个类目运用到考察人口普查和大学数据中编码的几个变量，包括人口统计和加拿大大学生从事的专业领域。

在对这些学生进行分类时出现了几个问题：研究哪些“成年学生”？是本科生、研究生或专业学位（如法律）？年龄是否是“成年学生”的唯一判断标准？或者在区别这群人时还要考虑其它特点（如婚姻状况）？其它组织（如加拿大统计局、加拿大的大学）如何定义成年学生？这些定义符合当前的研究课题吗？

首先，高查全率应当是该项研究考虑的重点：符合成年大学生资格的每个学生都可能被作为研究数据来收集。例如，该项研究访谈阶段所研究的大学中，没有履行该校的专门“成人入学”手续的学生，被排除在大学统计数据之外。某个学生如果符合该校制定的技术标准（如年龄超过21岁和在正规学校至少呆过3年），但他没有履行标准的入学手续，就不能属于“成年大学生”，也不能用该校的数据收集方法进行跟踪。在这种情况下，考虑到不能恰当地区分校园里的许多成年学生，相关数据的查全率就可能很低。然而，对于那些被跟踪到的学生来说，该校的标准反映了一个精确度很高的定义，这在加拿大的大学十分普遍。这些精确的标志（如年龄大于21岁，且在正规学校至少呆了3年）被选作该项研究定量阶段定义的起点。另外，还为该项研究挑选了学位范围（这里局限于本科阶段）。

专指性是该项研究考虑的另一个重点：如何区分不同类型的成年学生。成年人接受不同类型的教育，包括学位课程和非学位课程、设计研习会、非正式阅读组、业余活动等。重要的是，成年学生的定义反映了教育追踪的类型，教育追踪与全部学习的最终目标相符合，因此这个定义局限于那些从事学位学分课程的学生，特别是那些注册了本科学习计划的学生。然而，当对这些学生的经历进行探索研究时，需要一个详细的学习课程表，并用大量的人口统计类目来区分成年大学生的交叉部分。

如图2所示，研究结果形成了定量数据分析模型（定量数据分析、定性数据分析和文本数据分析共用一个模型，但具体内容有差别，见各自的注释），成年学生包括大量的学习课程和人口统计背景（网罗性），并采用以下方法加以区分：不把那些符合“成年学生”标准的学生错误地排除在数据收集之外（高查全率）。区分不同类型的成年学生的好办法是：把研究范围缩小到那些接受正式学位学分的学生（高专指性），且这个用于区分成年学生的标准与该研究的假设相关（高查全率）。另外，所有这些决定都是依据指导该项研究的两个阶段的研究课题做出的。

图2 定量/定性/文本数据分析模型

共同范围：类目/代码与研究目标相匹配（信息行为，积极的和消极的，与图书馆相关的或不相关的，等等）。

高专指性：很好地区分了学生类别（从事学位学分学习的成年大学生）。

高网罗性：辨别所有少量数据（从人口统计、学科等范围选择参与者）。

高查准率：收集的所有数据都是相关的。学生年龄超过21岁并至少3年没有正式在校学习之后返回学校。

高查全率：收集所有相关数据。例如，大学统计数据排除了那些没按“成人入学”申请入学的学生。

相关数据：研究课题是这个学校的成年大学生如何进行学习。

4.2 知识组织模型的定性运用

下面的例子取自Given研究的定性访谈阶段。其数据分析遵循基础理论方法：在进行过程和重复过程中，从数据形成主题时，即对主题进行编码。此研究的访谈阶段包括以下研究问题：成年大学生有哪些学术信息行为？信息行为是指学生为学术生涯寻找信息活动，从访问图书馆到询问同伴，再到从电视新闻获取论文主题。尽管这只是该项研究中的一个问题，但它说明了将知识组织概念运用于真正的定性研究的方法。

这个问题的编码过程涉及到一系列问题。首先，在副本（如读一本书）中搞清信息行为主题，再给该主题编码（如“读”是读书的动作；“书”是书的本身）。然后，在检查副本的附页（或浏览下一个副本）时，问题就出现了：是否需要高专指性且需要对编码进行精心处理（如把图书馆的书与学生自己的书区别开），这些非常专指的编码怎样集中在一个较高级别的类目下（如“资料源”，包括所有类型的书，也包括其它资料源，如电脑）。为了确保理想的查准率，其关键是选择专指性水平。例如，阅读一本可能与学生的学术生涯无关（如给儿童读一个睡前故事）的书，不会为这种例子进行正常编码，因为它们与研究课题无关。但是，当阅读睡前故事时联想到某类论文的一个可能的研究主题时，这个例子就与研究课题有关了。事例是否与指定的独立代码相关，这既是专指性问题，也是网罗性问题。

这个模型的另一半问题与网罗性有关：需要为研究课题展示多少个主题？编码书要想完全详尽是不现实的，因为需要花费很长时间形成所有主题，并针对所有副本为这些主题编码。那么，编码书的网罗性应该有多大呢？首先，考虑到每个研究课题，研究者必须确定有多少主题才有助于识别相关数据。在一天中的某段时间（如深夜，睡前故事之后），阅读课本是否也要被编码？或者学生在某个地方（如饭桌上）阅读也要被编码？第二，为了获取每个新主题或指定代码的理想查全率，研究者必须反复检查每个副本（通常多次），以便为所有的例子编码。编码的网罗性越高，越需要反复检查。这种反复过程平行于信息检索文献中的检索提问式（例如文本检索会议[TREC]的一系列研究项目，它们探讨了反复性和相关性反馈[5]或提问式重建[6]中的认识完备的反复手段）。然而，重要的是要记住，过度编码将导致极端的网罗性和专指性，进而降低查准率和查全率。当研究者的编码超出研究课题并且包含令人感兴趣但根本无关的主题时，就会出现过度编码问题。在基础理论研究中，这个问题难以避免，因为在定性研究中所获得的数据相当丰富且充满了诱人的细节。另外，人们不想限制编码以前就漏掉了但现在又突现的相关主题（特别是那些在研究设计开始时没有注意到的）。然后，当试图编码“感兴趣”但又与原始研究课题有关的主题时，应尽力加以限制。

反复问题也很重要。这个问题出现在把新主题或现有主题的特定代码加入编码手册，但没有彻底检查副本以便给这些主题的所有例子编码的时候。如果对每个副本中的每个主题不进行彻底的反复，则会导致低查全率和查准率。因此，如果增加了一个表示“读书的地方”的新代码，再阅读副本就需要保证这个主题被详尽编码了。类似地，如果最初编码了“书”，但数据显示需要“教材”和“图书馆图书”的更为专指的代码，此时，有必要对前面提到的“书”重新编码。在这两种情况下，研究者必须确保编码的彻底性。否则，不可能有效地检出分析所需要的数据。必须通过平衡来解决查准率和查全率之间的互逆关系，解决总是隐藏在研究数据中的不一致性问题。对定性编码者来说，关键是尽可能地接近一致。许多有关定性的文章是指检测编码者之间和编码者内部的可靠性过程，可靠性能提高被指定代码的一致性水平。

结果形成定性数据分析模型（见图2），但内容有所相同，也有所不同。

图2注释之二：定性数据分析模型（1）

共同范围：同图2注释之一。

高专指性：很好地为主题编码（个人——图书馆——课程资料）。

高网罗性：辨认所有少量数据。当数据中出现新主题时把它们加进来（基础理论）。

高查准率：收集的所有数据都是相关的。包括资料源（如书）、人际资料（如朋友）。

高查全率：收集所有相关数据。反复编码——检查/重新检查所有副本（编码者内在可靠性）。

相关数据：同图2注释之一。

在这个模型中，当数据中出现新主题时，就为新主题编码（网罗性）；以反复方式对数据进行检查和再检查，以便把这些新代码运用于相关主题的所有例子（高查全率）；为编码而选出的所有主题与研究课题是相关的（高查准率）；根据所提出的研究课题，决定每个主题所需要的专指性水平。

4.3 知识组织模型的文本运用

图书馆和情报研究越来越多地从人文科学中吸取各种文本解释，这与定性方法类似，但也像定量研究一样事先定义主题特征。知识组织的概念也能应用于文本研究，这是不足为奇的。例如，解构基于二元对立（二分法）的概念，这种方法让一个方面从属于另一个方面，两个方面要相互定义[3]。这种二分对立面的抽象程度可能不同，如“雄性/雌性”，更抽象的是“思想/躯体”或“理智/情绪”。解构展示了创建一个二分对立面的两个元素之间的界线，同时，如果二元体和相关二元体的专指性水平适当，只能用有意义的方法确定研究课题。解构的网罗性与阅读文本的狭窄有关。

话语分析展示了构建某一特定实体或话语形式的因素。如上所述，Foucault建议抛弃陈述的常规结构及其相互关系，用尽可能少的预先概念开头，以看看陈述是如何构建的（书面的或其它的），以及如何通过我们社会和文化的有活力的话语来构建。他的《知识考古学》（The Archeology of Knowledge）一书被描述成揭示知识组织系统的方法论，而这个系统能够支撑话语。此外，这些话语具有不同水平，因而，定义主题受到专指性和网罗性两个方面的影响。考虑这个问题的一个方法是在特定的文本中使这些话语具体化，并运用TEI来标记那些代表这些话语的主题。在显示特定话语时，文本可能是隐含的，也可能是明确的。在这两种情况下，必须搞清相关段落，以考察实体的构建情况。

最近，H.A.Olson[7]在加拿大社会科学与人文科学研究委员会（SSHRCC）的支持下，以一个事例探讨西文环境下分类实践的假设问题。这个事例叫文本数据分析模型，也可用图2来表示，但内容有所变化。

图2注释之三：定性数据分析模型（2）

共同范围：与所研究的话语有关的主题。西文分类的特性（相互网罗性、目的性和层次性）。

高专指性：很好地为主题编码。相互网罗性＞二元对立面＞神圣/卑俗。

高网罗性：辨认所有可能的主题。分类的特性＋文化差异。

高查准率：被编码的所有陈述都相关。细微差别在于主题间是可区别的并在分析时可读。

高查全率：收集所有相关数据。主题间的联系是可辨认的。

相关数据：研究课题是西方传统中多数文本是否有助于相同的分类话语。

在此项目中，使用了一些人撰写的文本，而用其他人的文本证明：类目的相互排斥性，从具体到抽象的目的渐进性，以及描述主题和强调分类的西文话语时的等级有序性。主题的辨认是对该项目局限性的事先定义，即[图2注释之三]中的共同范围。在版权允许的情况下，为这些文本的电子版（作为该项目的一部分可获得或可浏览）进行编码，编码采用TEILite增补的定制的扩展标记语言（XML）文献类型定义（DTD）。DTD定义了唯一的代码，TEI为其它电子文本项目提供了共同代码，其中大多数再生该文本，而不是分析它的内容。

该事例分析包括一般的重要观点，还对男女平等和后殖民理论予以特别考虑。因此，表示有关性别和/或文化差异陈述的代码也包括在DTD中，由此增加了网罗性水平。这些文章中的许多陈述都作为多主题来编码。例如，对一篇文章中的某一段进行编码，以区别什么是神圣的和什么是卑俗的，这种区别的本质是什么，以及这种区别是“文明的”的含义。这是典型的西方文化。如该模型所示，这个结果具有高查全率，反映了文章的复杂性。在分析中，复杂性可以使我们搞清主题间的联系。

当不同主题相互作用时，如此编码的文本应服从于阅读。对于特定主题的例子来说，也应该是可检的。单个主题和多个主题间的关联都将有助于对这些数据的分析。

5 结论

可以认为，KO模型是充满活力的，是从根植于几个世纪的实践和研究的概念中生长出来的。本文把这些概念及其相互联系综合成一个可视模型，并且证明了该模型的QQT方法的可能应用。共同范围、专指性和网罗性的概念被有意识地用于各种类型的研究中，扩展或集中数据及其分析。研究课题的相关性是指导原则，以数据的组织贯穿始终。正如高质量标引和分类提供一种方法一样，通过收集和编码而整理的数据为确定研究课题提供相关信息，以便从知识组织系统获取相关信息。我们对KO模型的开发与探讨为研究数据的组织提供了一个方法论的概念方法。该模型起到一个棱镜的作用，把未辨认的数据（如白光）转换成一个有序的光谱，即一条人工生成的彩虹。就像彩虹受限于人类能够感觉到的波长一样，数据的光谱也受限于可获得的代码，其专指性和网罗性或大或小。可以对数据进行组织，以至于把蓝色组合起来（如组合成紫罗兰色），但是，是否能把靛蓝色所增加的专指性编码成一个交叉类目呢……尽管KO模型不是万能的，但它为研究者提供了一个既灵活又严谨的数据组织方法，有助于提高研究的整体质量。

标签：大数据论文; 查全率与查准率论文; 文本分类论文; 相关性分析论文; 文本分析论文; 分类变量论文; 分类数据论文; 主题模型论文; 编码转换论文; 查准率论文; 查全率论文;

知识组织概念模型的应用--以组织研究数据为例_大数据论文

猜你喜欢