跨语言在线信息检索_自然语言处理论文

跨语言在线信息检索_自然语言处理论文

网上信息的跨语言检索,本文主要内容关键词为:语言论文,网上论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

网上的信息资源类型丰富、数量庞大,所使用的语言亦具多样性。当前全球3130亿网页内容所使用的语言依次为英文68.4%、日文5.9%、德文5.8%、中文3.9%、法文3.0%、西班牙文2.4%、俄文1.9%、意大利文1.6%、葡萄牙文1.4%、韩文1.3%、其他文种4.4%[1]。全世界6亿多网络人口的使用语言依次为英文38.3%、中文11.2%、日文10%、德文6.8%、西班牙文5.5%、韩文4.1%、意大利文3.9%、法文3.5%、葡萄牙文3.1%、俄文3%、其他10.6%[2]。网上资源语言的多样性和网民所掌握语言的差异性不可避免地给人们利用网络带来了语言障碍,人们对语言自动翻译的需求越发迫切。据统计,2002年10月在使用英文搜索引擎中提出语言翻译请求的几种主要语种有:西班牙文47.2%、法文17%、拉丁文7.8%、德文6.2%、日文4.7%、意大利文3.2%、俄文2.4%、中文2%[3]。为了消除网络资源利用中的语言障碍,跨语言信息检索技术(Cross-Language Information Retrieval—CLIR)成为目前信息检索领域中重要的研究课题。

1 跨语言检索的相关技术

跨语言信息检索是指用户以一种语言提问,检出另一种语言或多种语言描述的相关信息。例如,输入中文检索式,跨语言检索系统会返回英文、日文等语言描述的信息。这里的信息可以是文本信息也可以是其他形式的信息,目前研究最多的是跨语言文本信息检索和跨语言语音信息检索。在跨语言检索中,提问式所使用的语言通常称为源语言,源语言一般是用户的母语;被检索文档所使用的语言称为目标语言,目标语言可以是用户不熟悉甚至完全陌生的语言。与跨语言检索相对应,提问式语言和文档语言相同的检索称为单语言检索(monolingual retrieval)。

网上信息跨语言检索的过程是:网络蜘蛛(Web spider)搜索网络信息,在统计方法、自动标引技术的支持下编制以语言为基础的索引,服务器接受以一种语言描述的提问式,并返回跨语言检索的结果,这一结果是由不同语言描述的信息集合构成的。在跨语言检索中主要涉及的技术有计算机信息检索技术和机器翻译技术:计算机信息检索技术完成提问式与文档之间的匹配,机器翻译技术完成不同语言之间的语义对等。

1.1 计算机信息检索技术

计算机信息检索技术目前已趋于成熟。在单语言检索中,计算机检索技术主要是自动搜索技术、自动标引技术和自动匹配技术。检索系统利用网络蜘蛛进行网络信息的收集,然后利用自动标引技术对搜集的信息进行标引形成索引数据库。用户输入检索式后,计算机把检索式与数据库中索引项进行匹配,按检索式与标引项相关性大小降序输出检索结果。跨语言检索中实现信息检索的原理和方法与单语言检索是相同的,只是在检索的过程中加入语言处理技术,使一种语言能够与其它语言对应。

1.2 机器翻译技术

机器翻译技术实质上是一种能够将一种语言的文本自动翻译成另一语言文本的计算机程序。机器翻译技术的核心是保持两种文本(源语言文本和目标语言文本)的语义对等,由于在翻译过程中,源语言文本中的词往往对应目标语言描述的几个词,所以要选择最合适的词或其他的处理以达到含义的一致。由于这涉及到复杂的计算机语义分析技术,因此机器翻译的效果还远未达到人们所期望的水平。在跨语言检索中,需要利用自然语言处理与机器翻译相结合的技术提高翻译的准确性,因为在跨语言检索中,翻译的准确性直接决定了检索的准确性。

计算机信息检索技术和机器翻译技术是跨语言检索中所利用的主要技术,由于计算机检索技术已比较成熟,而机器翻译技术的实用性还有待发展和完善,因此跨语言检索所要解决的问题实际上是一个语言处理问题。跨语言检索不同于单语言信息检索和机器翻译,也不是两种技术的简单叠加,它是一种有机的融合,有着自身的特点和专门的研究内容。

2 跨语言检索的实现方法

目前跨语言检索的主要实现方法有:提问式翻译、文献翻译、提问式—文献翻译、中间翻译和非翻译。

2.1 提问式翻译方法(query translation)

提问式翻译的过程是把源语言的提问式利用机器翻译技术翻译成目标语言提问式,再进行单语言检索。利用提问式翻译的方法进行跨语言检索的实质是把源语言提问式做了适当转换,其基本的过程和技术还是单语言检索,而且检索返回的结果是用目标语言描述的,这增加了用户利用信息的难度。当一个源语言提问词有多个目标语言词与其应时,通常选择第一种或全部的释义作为提问式的译法。选择第一种译法自然存在一定的不合理性,选择全部的译法又大大降低了检索的查准率。针对这一问题,Pirkola等人提出了提问式构造法(query structuring)[4],认为主要有三种构造提问式的方法:基于同源词的构造法(syn-based structuring)、基于复合词的构造法(compound-based)、n元匹配法(n-Gram matching)。提问式构造方法的实质是利用同源词、复合词或n元匹配分析提问式中各个词的权重:只有一种或两种释义的词的权重最高,而有多种解释的词用同源词符、复合词符或n元匹配符连接以降低其权重。Pirkola等人通过对三种方法实验,验证了使用提问式构造法会提高跨语言检索的检索性能。

2.2 文献翻译方法(document translation)

文献翻译方法不对提问式进行翻译,而是把数据库中用目标语言描述的文献翻译成与提问描述相一致的源语言形式,再通过提问式与信息库的匹配,完成检索过程。运用文献翻译方法进行跨语言检索,返回给用户的结果是用源语言描述的,用户能够方便地选择利用。文献层次的翻译相比于提问层次的翻译,其语境更加宽泛,进行歧义性分析所能利用的线索比较多。但是这种方法所使用的文本自动翻译技术的正确率目前还难以达到实用水平,而且将数据库中全部文献从目标语言翻译到源语言的工作量也是巨大的。文献翻译方法只有在翻译内容有限的情况下才有意义,如对已确定要浏览的某个网页进行翻译。目前采用这种方法的实验系统尚未见报道。

2.3 提问式-文献翻译方法(query-document translation)

在这一方法中,源语言提问式翻译成目标语言提问式,与目标语言描述的信息库进行匹配,检出相关信息,然后再把检索结果的全部或部分翻译成源语言描述的信息。检索结果的翻译一般选择部分翻译,因为跟全部翻译相比,部分翻译的工作量较少,容易提高翻译的效率和质量。部分翻译一般是对结果文本的前两行、文摘、或文本中重要的词进行翻译。在重要词的翻译中,如何找出确定重要词是决定这种方法效果的关键。目前的研究主要是根据词频并结合禁用词表和功能词表来决定词的重要性。利用提问式-文献翻译方法进行检索,返回给用户的结果是用用户所熟悉的源语言描述的,用户能够容易地选择利用检索出的信息,减少了用户的翻译成本,提高了检索服务的质量。

2.4 中间翻译方法(triangulated translation)

在跨语言检索中,解决语言障碍的基本方法是两种语言之间的翻译,然而所有的翻译方法都离不开机器翻译、双语词典、语料库等作为翻译的语言基础。但是,在跨语言检索中可能会碰到这样的情形:两种语言直接翻译的语言资源不存在,例如在TREC中很难找到德语和意大利语之间直接对等的语言资源。为此研究人员提出了一种利用中间语言或中枢语言进行翻译的方法:将源语言翻译成中间语言(可以是一种或多种),然后再将中间语言翻译成目标语言(利用多种中间语言时需要合并)。假定在德语和英语之间不存在直接的翻译,而是通过西班牙语和荷兰语两种语言作为中间语言进行翻译。如果被翻译的源语是德语单词“fisch”,翻译成西班牙语为“pez,pescado”,翻译成荷兰语为“vis”;西班牙语“pez,pescado”翻译成英语为“pitch fish,far,food fish”,荷兰语“vis”翻译成英语为“pisces the fishs,pisces,fish”,比较合并这两种翻译结果便可选择“fish”’作为德语单词“fisch”的英语译文。

2.5 非翻译方法(no translation)

Deerwester等人1990年在单语言检索研究中提出了潜在语义标引法(Latent Semantic Indexing-KSI)[5],Dumais等人进一步把这种方法引入到跨语言检索中[6],他们将英语词汇、法语词汇、英法双语文件映射到一个向量空间中,尽管这些术语是不同语言描述的,但是可进行语义上的比较匹配,而无需翻译转换。Berry等人在希腊文一英文[7]、Oard在西班牙文一英文等不同语言配对上进行了实验[8],验证了这种方法具有一定的有效性。

3 跨语言检索的研究重点

跨语言检索技术的研究最早可追溯到1973年G.Salton《Experiments in multi-lingual information retrieval》一文的发表,但当时的研究主要是针对国际联机检索进行的,人们对网络信息的需求并不强烈,跨语言检索研究真正活跃并取得成果是Internet飞速发展的20世纪90年代后期,国际上先后有许多研究论文发表,一些实验性跨语言检索技术和系统相继问世。当前跨语言检索的研究重点主要集中在语言资源、翻译歧义性消解等几个方面。

3.1 翻译所需语言资源的研究

在跨语言检索中,主要解决的问题是语言障碍,因此,两种或多种语言之间的翻译对于跨语言检索的性能有着重要的影响。而翻译必须以一定的语言资源作为基础,在跨语言检索中,常用的语言资源有手工编制双语词典(manually generated bilingual dictionary)、机器可读词典(machine-readable dictionary)、机器翻译(machine translation)、语料库(corpus)等。

手工词典是翻译人员进行翻译必备的工具,具有准确、全面的优点,但在跨语言检索中难以实现计算机的自动识别处理。

机读词典是把手工词典以机器可读的编码形式进行组织,便于实现两种语言在词汇层次上的对译,但没有人工参与的机读词典对翻译的歧义性问题难以解决。

机器翻译能够在语句层次实现两种语言的翻译,但目前这种技术还不成熟,基本停留在语言表层的句法层次(syntactic),其语义翻译(semantic)水平还远未达到实用的程度。

语料库是将同一信息或同一主题的信息用两种或多种语言进行描述,并由人工或机器建立不同语言间的联系,在跨语言检索的翻译中可以参考这些联系信息进行提问或文档的翻译。语料库根据不同语言间对应层次的不同,可分为词汇联结(word alignment)、句子联结(sentence alignment)、文献联结(document alignment)和非联结(no alignment)几种。语料库中联结的准确性对翻译的质量至关重要,因此词汇联结是最实用有效的语料库。语料库可以分为平行语料库(parallel corpus)和比较语料库(comparable corpus):平行语料库是指同一信息用不同的语言进行描述,比较语料库是指同一主题的信息用不同的语言进行描述。后者的定义较前者宽松,因此理论上较容易取得大量的文件。基于语料库的跨语言检索是近些年研究的热点。

语料库,尤其是平行语料库的应用,不仅改善了词翻译的不确定性,而且对于专有名词的翻译有着重要的意义,因为在平行语料库中,词与词(包括词与短语和短语与词)之间的对应是唯一的,很多在手工词典和机读词典中不能获取的词都可以在平行语料库中得到。

各种语言资源在跨语言检索中的使用不是孤立的,同时使用两种或多种语言资源会达到更好的效果。

3.2 翻译歧义性(translation ambigous)的研究

在跨语言检索的翻译中最难解决的问题是翻译的歧义性,也就是说,对于一个单词,其译文可能有两种甚至是多种,出现二义性或多义性。因而,翻译歧义性问题成为跨语言检索研究的关键问题。

解决语言歧义性的自动处理方法分为两大类。一类是在一定程度上模仿人类解决歧义性的方法,在处理过程中结合人工构造的语法学、词法学、句法学、语义学等方面的知识,力求给出文本非歧义的解析表达。但是机器要在这种全文本层次上实现正确有效的分析是相当困难的,其性能水平无法与高昂的语言分析成本相对应,因此,这类方法大都局限在语言的特定子集或较小的论域中。有鉴于此,许多研究者更关注较实用的方法,力图以较低的成本达到较合理的性能水平。这类方法的重点主要放在词汇和短语等较低语言层次的歧义消解上,所依赖的工具主要是一些机读化的语言资源,如词典、主题词表、语料库等,而词典和语料库是目前消歧方法中应用较多的两种。

3.2.1 词典方法

这种方法分析语言中的词汇信息及其结构,以识别确定各个单词间细致的关系。

Lesk利用词交迭(overlap)方法推测单词在给定语境中正确的含义以实现词汇消歧[9]。该方法将歧义词的每个含义同与其共现(co-occurrence)词的定义进行比较,与共现词定义有最大交迭的那个含义选为歧义词的正确含义。

Krovetz试图间接地通过词根还原技术(Stemming)解决歧义性问题[10]。词根还原是一种融合(汇聚、)相同概念词的技术,Krovetz的词法还原器Stemer根据词义对词进行汇聚,被汇聚的词不一定具有相同的词根。这种还原器充分利用了各种词法信息:不规则词法可用来识别词义,如antennae是与昆虫相联系的antenna(触须)的复数,而不是与电子设备相关的天线(其复数为antennas);后缀只附着于特定词类的词根上,因此这类信息能用于区分同形异义词。试验表明,这种词根还原器能够显著改进消歧的效果,尤其是对于文本较短的情况。

3.2.2 语料库方法

Brown等人利用平行语料库在法译英翻译中进行单词的消歧[11]。为消除法语单词f在英语释义中的歧义性,一个与f相联的英语单词集合Ef被分隔成两部分,被称为f信息提供者(informant)的共现词集合If也进行类似的分隔。算法对Ef和If分别进行划分以使英语和法语划分之间的交互信息最大。英语划分结果定义了f两个划分的翻译等价物,每个法语划分映射到两个英语划分之一上,而该英语划分中的成员则作为信息提供者来识别f的释义。

Smadja等人开发了Champollion系统[12],应用语料库消除固定搭配短语的歧义性。在翻译中固定搭配短语不能逐字翻译,Champollion将短语视为一个相邻单词或含有任意数量单词的序列,以建立在句子层次上的平行语料库为基础进行短语的翻译。对于一给定源语言短语,Champollion使用Dice系数识别与其高度相关的目标语言词汇,这些词汇再通过系统化的叠代方法处理而生成源语言短语的译文。在这种叠代方法中,首先处理目标语言词汇的每个词对,选出与源语言短语高度相关的词对进入下一个步骤;通过向这些词对加入相关的单词生成高度相关的三元词组并进入下一个步骤;这种处理反复执行直到不再发现高度相关的词组合。最终目标短语的词序参照语料库中的例子确定。

4 结语

网上信息量的剧增既拓展了人们获取信息的空间,同时也增加了人们选取所需信息的难度。跨语言检索的目的是解决信息检索中的语言障碍问题,方便不同语言信息的交流,使网络信息资源得到更加广泛的应用,这一研究不论是在学术理论上还是在应用实践中都有着重大的意义。从目前的研究状况看,我国相比于欧美一些国家还有一定差距,对于语言翻译歧异性的消解等关键问题研究还较薄弱,跨语言网络信息检索的试验和应用系统还很少。本文希望通过对跨语言信息检索理论与方法及当前研究难点问题的归纳与梳理,引起我国学者对该领域的重视,激发研究兴趣与热情,促进我国跨语言信息检索研究的发展。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

跨语言在线信息检索_自然语言处理论文
下载Doc文档

猜你喜欢