面向机器翻译的双语信息处理系统的设计与实现

面向机器翻译的双语信息处理系统的设计与实现

宋继平[1]1999年在《面向机器翻译的双语信息处理系统的设计与实现》文中进行了进一步梳理随着信息社会的进步,特别是国际互连网的迅速普及,信息的数量、内容、格式、存在方式与传输途径都发生了很大变化,提高网络信息的查询质量和翻译效果,对推进我国信息化进程具有十分重要的现实意义。系统实现涉及信息处理、机器翻译和人工智能等学科的难题,其研究具有重要的理论价值。 当前的信息处理系统通常只注重某些难题的克服,缺乏整体解决方案,更因为缺乏对以往处理知识与经验的记忆,常造成对大量信息的重复处理,不但浪费资源,而且因为缺乏积累而难以进步。现有的查询系统因为文本分析深度的限制,检索方式单一,质量不高。实用机器翻译常采用单一的规则分析方法,难以单独解决所有问题,需要多策略的综合利用,而类比翻译的思想一直缺乏在实际系统中的运用。 为解决上述问题,我们设计并主要实现了集网络技术、机器翻译技术和信息处理技术为一体的网络双语信息处理系统(NBLIPS)。系统有效存储并管理各种信息,根据最终用户和机器翻译的不同查询特征与需求,提供多途径的高质量查询功能。系统充分利用信息库中的双语信息,不但为信息检索提供精练依据,而且基于以前的翻译经验和知识,提供类比翻译的新途径。 系统基于独立的格式识别模块和开放的格式知识库,能够实时描述新的格式信息及其处理策略,并在格式过滤时,获取重要的内容信息或启发式信息。基于对文本内容的分析、理解,系统全面抽取文献的各种特征,并根据查询需要建立相应的特征索引。 系统基于倒排文档和相应的术语邻接共现表,根据检索表达式中的术语数目和操作算子的种类,动态实现全文检索,提高了检索响应速度。系统基于双语词典构建关键词的概念关联度表,以此为依据实现基于概念扩张的关键词检索,不但能满足用户概念查询的实际需要,还具有工程实现的代价小和动态调整简便的优点。基于文档内部标题自动提取的层次检索十分便于大型文献内部局部主题的快速定位。系统依赖双语知识对术语的查询可替代关系进行精练,提高了跨语言查询的质量。 文本内部翻译对应关系的建立是基于例子的机器翻译和其他相关处

宋今[2]1997年在《面向网络实时翻译的双语信息管理系统BLIMS设计》文中进行了进一步梳理本文的研究工作建立在多元信息流输入识别与处理系统MIIRPS(Multiple Information flow Input Recognition and Processing System)的基础之上。 多元信息流输入识别与处理系统MIIRPS尝试将信息流的输入输出、识别、处理、管理、查询等技术有机地集成在一起,着重解决以下问题:①对网络信息的实时处理;②将不同的信息处理技术有机集成;③接受并识别多元信息源,包括纯文本、超文本HTML文件和扫描文本OCR以及语音输入等等;④系统自然语言人机界面的设计。 MIIRPS主要包括源信息流输入识别系统、双语信息管理系统、网络实时翻译系统、目标信息流输出处理系统以及自然语言人机接口等五大模块。其中,双语信息管理系统BLIMS主要负责完成以下工作:①将信息自动分类和索引,送机器翻译系统翻译;②自动提取信息文摘,并对文摘进行加工,以提高机器翻译系统效率;③建立双语信息库,将已翻译过的原、译文双语信息分类、加工和存储,并完成用户对信息库的检索。 BLIMS系统包括信息自动分类与关键字提取子系统、信息自动文摘子系统和双语信息库BLIB及其存储与检索子系统。其中,在信息自动分类与关键字提取系统中,本文提出了基于层次词典的信息分类和基于信息分类的关键字提取技术,有效解决了机器翻译系统信息分类问题与双语信息库的信息分类存储问题,并为系统自动文摘的设计和实现奠定了基础。 在BLIMS的自动文摘系统中,本文在充分吸收前人技术经验的同时,提出了基于语料库的文摘新方法,尝试将对文本的语言学分析与统计数据有机地结合起来,以提高文摘的可靠性和实时性。此外,本系统还提出了面向机器翻译的文摘加工思想,通过对文摘的再加

宋今, 黄河燕, 陈肇雄[3]1998年在《面向网络实时翻译的双语信息管理系统BLIMS》文中进行了进一步梳理双语信息管理系统BLIMS作为网络实时翻译的辅助实现手段.对提高翻译的实时性和正确性都具有重要的影响。BLIMS包括信息分类系统、双语信息库BLIB及其存储和检索系统,它主要提出了基于层次词典的信息分类方法、“存储检索操作一致性”原则和“基于特征识别”的信息检索技术,并引入了段落“普遍特征”利“显著特征”等概念,实现了基于文本段落查询的数字化模糊检索。

赵生辉[4]2012年在《中国少数民族语言电子文件集成管理的体系架构研究》文中提出本文是作者所主持教育部人文社会科学基金项目“中国少数民族语言电子文件统一归档研究(项目号:11XZJC870001)”的研究成果。中国是统一的多民族国家,多民族、多语言、多文字是国情的基本特征。伴随少数民族语言文字规范化、标准化和和民族地区信息化建设的逐步推进,如何稳妥、科学、有效地管理随之产生的少数民族语言电子文件(Electronic Records),是民族地区档案管理工作迫切需要解决的问题。少数民族语言电子文件管理是融合了管理、技术、法律、政治、文化等多领域需求的综合性、复杂性问题,具有环境复杂、目标多重、主体多元、客体多样、技术异构、资源分散、方法综合等特点;在满足真实性、完整性和长期可读性等基本需求的前提下,还需考虑“跨语种信息共享”、“跨媒体信息整合”和“跨地域协作管理”等特殊需求。作为国家档案事业的组成部分,民族地区按照“统一领导,分级管理”原则建立起来的档案管理机制具有很多优点,却无法从根本上解决少数民族语言电子文件管理面临的重重矛盾,无法有效满足少数民族语言电子文件管理的多种特殊需求,使少数民族语言电子文件处于高风险状态的同时限制了其档案价值实现的空间。“集成管理”是从国家战略视角对少数民族语言电子文件管理进行宏观规划和统筹之后提出的新模式。该模式以系统科学和集成理论为指导,在民族地区现有档案事业管理机制的基础上,将境内语种多样、类型丰富、地域分散、技术异构的少数民族语言电子文件视为整体进行管理,建立一体化的制度体系、技术平台、组织架构、流程规范,平衡少数民族语言电子文件管理中的“多元性需求”和“一体性需求”,整合电子文件形成机构、档案管理机构、语言文字工作机构和民族事务管理机构的力量,化解分级分散管理所无法有效解决的诸多风险和矛盾,最终为全国各族人民提供集成、高效、便捷的少数民族语言电子文件利用服务,满足多层次的利用需求。本文紧扣“少数民族语言电子文件集成管理的体系架构”这一主题开展论证。全文共分7章,除第0章的引言和第6章的结语外,主体部分的内容按照“战略层”、“战术层”和“实施层”的逻辑结构进行组织,重点探讨了“为什么要进行少数民族语言电子文件的集成管理?(Why to do)"、“少数民族语言电子文件集成管理体系如何构成?(What to do)"、“少数民族语言电子文件集成管理架构如何实施?(How to do)”这三个核心问题,主要内容如下:第一,中国少数民族语言电子文件集成管理的战略构想(第1章)。少数民族语言电子文件是一类特殊的电子文件,除具备一般性电子文件的属性外,还具有应用的非孤立性、社会功能的多样性、信息处理技术的异构性、支撑技术的非成熟性、地理分布的分散性等特征。按照通用模式进行少数民族语言电子文件管理,面临长期可读风险、编码冲突、文化冲突、理解障碍、获取障碍、整体低效等重大缺陷。集成管理是以系统科学为理论基础,将各地区、各语种的少数民族语言电子文件视为整体进行管理,形成单一语种和分散管理难以实现的部分功能,达到“1+1>2”的效果,实现系统整体性能的优化。集成管理模式在档案、政治、文化、经济、信息、科研等方面具有重要价值。第二,中国少数民族语言电子文件集成管理体系的架构(第2章~第4章)。本部分是全文的核心内容,第2章在进行少数民族语言电子文件集成管理体系规划的基础上,构建了基于“价值链”的集成管理架构模型,第3章详细分析了“价值链”模型当中的“基本增值活动”,第4章详细分析了“价值链”模型当中的“支持性活动”。少数民族语言电子文件集成管理整体上分为“民族地区(事务)电子文件管理”和“少数民族语言电子文件”两个阶段,其核心是“单元归档”和“集成归档”环节。“单元归档”体现“分级管理原则”,按综合档案馆建设和管理的思路进行,“集成归档”体现“面向用户原则”,按专门档案馆建设思路进行;“单元归档”侧重于完整地保存历史记忆,“集成归档”侧重于跨越地域和语言的障碍提供一体化信息服务。基于“价值链”的少数民族语言电子文件集成管理架构模型整体上分为三部分:价值分析、基本增值活动、支持性活动。价值分析主要通过少数民族语言电子文件集成管理的多维价值来体现;基本增值活动包括前端控制、单元归档、集成归档和集成服务四个环节,称为少数民族语言电子文件管理的生命周期;支持性活动分为基础设施、制度体系、组织架构和管理流程四个方面。基本活动和支持活动相互配合,共同完成少数民族语言电子文件管理的各项任务,实现集成管理的各类价值。少数民族语言电子文件集成管理生命周期当中,前端控制重点关注少数民族语言电子文件编码方案、存储格式、数据结构的标准化问题;单元归档重点关注少数民族语言电子文件的双语对照、双语著录、非通用软件和硬件系统的归档留存等问题;集成归档关注基于分布式数据库的电子文件存储体系、可读性支撑中心、信息安全灾备等问题;集成服务关注基于双语对齐语料库的少数民族语言电子文件机器辅助翻译系统、集成服务平台建设等问题。少数民族语言电子文件集成管理的支持体系探讨与基本环节所对应的基础设施建设、法律制度体系、组织机构设置和管理流程设计等问题;第三,中国少数民族语言电子文件集成管理架构的实施策略(第5章)。少数民族语言电子文件管理正处在起步和探索阶段,还没有发展成为独立的领域受到足够重视。无论民族地区信息化建设基础如何,战略规划必须先行。少数民族语言电子文件集成管理是根据电子文件的不同类型,随着民族地区经济社会发展水平逐步推进的过程,整体上需要经历“虚拟平台”、“逻辑平台”、“实体平台”和“云平台”四个阶段。当前重点关注使用人口较多、影响较大少数民族语种电子文件的管理问题,做好“中国少数民族语言电子文件共享工程(同心工程)”的前期规划工作。经过上述研究,本文得出以下结论:本文以“多元一体”为核心理念,建构了基于“价值链”的少数民族语言电子文件集成管理架构模型,其核心目标是构建以国家通用语言文字为核心的“少数民族多语种电子文件协同管理与集成共享体系”。该体系可以解决“面向来源”的整理保存和“面向用户”的信息服务之间的矛盾;立足国家整体利益和民族地区实际,对少数民族语言电子文件管理中的各类矛盾和关系做出战略性安排;在民族地区现有档案管理机制的基础上,构建起少数民族语言电子文件跨地区、跨语言、跨媒体共享机制;在保护少数民族文化,保障少数民族文字权的前提下,通过少数民族语言电子文件的集成管理,增强中华民族的凝聚力和向心力。该体系的实施将对我国民族地区的政治、经济和文化等诸多领域产生深远影响。本文的理论创新体现在以下三个方面:(1)提出并系统论证了中国少数民族语言电子文件的集成管理战略。从国家整体角度进行战略思考,提出“集成管理”模式的战略构想,为少数民族语言电子文件管理提供了战略参照体系;(2)构建了基于“价值链”的少数民族语言电子文件集成管理架构模型并探讨模型相关部分的实现思路,为少数民族语言电子文件集成管理的战略规划提供了基本思路;(3)分析论证了少数民族语言电子文件集成管理架构的若干实施策略,为中国少数民族语言电子文件共享的工程实践提供了策略指导。

卡哈尔江·阿比的热西提[5]2012年在《基于实例的汉维—维汉双向机器翻译系统的研究》文中研究指明机器翻译(Machine Translation)是指用计算机自动地将一种人类语言转换成另一种人类语言,例如将维吾尔语译成汉语或者将汉语译成维吾尔语。在不同策略的翻译方法中,基于实例的机器翻译方法避免了复杂的深层次的语法和语义分析,具有译文精确、翻译速度快、获取翻译知识简单的优点。本文首先回顾了机器翻译发展史、简单地介绍了各种机器翻译方法和机器翻译现状。描述了基于实例的机器翻译方法的原理、系统结构、相关问题以及该方法的优点。在着重描述黏着型语言信息处理以及机器翻译研究现状,较为深入分析了双语实例库的建立、维吾尔语句子相似度计算方法以及相似句子组合方法,并提出了基于实例的汉维-维汉双向翻译系统设计方案并加以实现。主要在以下方面做了一些探索性的工作,研究了汉语维吾尔语双语翻译实例库的构建方法;汉语维吾尔语双语实例库索引的建立方法;维吾尔语句子相似度计算方法;汉语维吾尔语双语翻译实例片段的匹配组合方法。在此基础上设计与实现了基于实例的汉维-维汉双向机器翻译系统。小规模实验结果表明本系统对相似句子翻译的质量高,而对于实例库差距较大的句子翻译质量较低,系统还有完善的空间。

王博[6]2010年在《机器翻译系统的自动评价及诊断方法研究》文中提出人类社会是一个由多种文化组成的复杂整体,各种文化间的互相影响和渗透促进了人类社会的进步和发展。在当今的信息社会中,各文化间交流的主要载体是语言,而不同语言之间的翻译成为文化交流过程中的关键所在。面对海量的多语言信息,传统的人工翻译已经远远无法满足需要,因此能够实现自动化的自然语言翻译的机器翻译技术在过去十几年中一直是人工智能领域研究的一个主要热点。在机器翻译研究中,翻译系统的评价方法是一个关键环节,它对于机器翻译研究具有着非常重要的意义。评价方法可以对翻译系统的性能作出评价,指出存在的问题,指导系统的研发。准确的评价方法是系统研发过程的主要依据,是推进机器翻译系统发展的主要动力之一。可以说,没有有效的评价方法,就没有机器翻译系统的发展。经过近几年的发展,机器翻译自动评价方法的研究在世界范围内取得了丰富的成果,这些成果都主要体现在基于系统译文和参考译文的宏观相似度的评价方面。目前,基于宏观相似度的评价方法虽然取得了一些进展,但是其评价性能仍然有待进一步提高。这里的“宏观”指的是将一个句子,一篇文章乃至一套语料作为一个完整的整体进行评价,给出唯一的一个评价分数,该分数体现了机器翻译系统的整体性能。宏观评价是一种黑箱的评价方法另一方面,随着机器翻译系统变得越来越复杂,传统的宏观评价方法已经难以满足当前机器翻译研究的需要,研发者们需要能够提供更加丰富信息的微观自动评价方法。这里的“微观”指的是对语料中的片段或者机器翻译系统的某方面功能的评价。微观评价是一种白箱的评价方法,在本文中,我们进一步的根据其特点,将提出的微观评价方法称为“诊断”方法。基于这些问题,本文旨在进一步提高宏观自动评价方法的性能,同时面向机器翻译的微观评价,提出有效的机器翻译自动诊断方法。对基于字符串相似度的宏观评价方法,参考译文的覆盖度扩展以及面向单语和双语的自动诊断方法等关键技术进行研究。1.基于不连续N元子串的宏观自动评价。基于字符串相似度的宏观自动评价方法以其快速稳定的性能和广泛的适用性得到普遍接受。本研究着眼于提高基于字符串相似度的评价方法的性能,在对现有方法的优势和不足的分析的基础上,提出了一种新的基于不连续N元子串的评价技术。新的方法在不连续2元子串方法的基础上进行了扩展,其中包括了选择更宽的单元长度和多重的相似度统计。另一方面,基于SVM的机器学习方法也被引入到新方法当中,用于调整多重统计在整体评价中的权重。新的方法在性能上得到了提高。该研究的成果在2008年NIST评测中取得了两个第一和一个第二的好成绩。作为宏观评价方法的一种应用,本文还将宏观评价指标引入机器翻译译文融合方法。机器翻译中的译文融合技术是近年来备受关注的一个新课题。随着不同类型的机器翻译系统的不断涌现,研究者们开始尝试通过译文融合技术来整合不同系统的优势能力。作为宏观评价方法的一个应用,本研究着眼于利用翻译系统的宏观评价指标来指导译文融合,实现译文融合技术在鲁棒性和有效性上的平衡。该研究的成果在2008和2009年的国内评测中均取得了最佳成绩。2.基于句法信息的参考译文扩展。参考译文是自动评价方法的关键因素,参考译文的语言学覆盖度直接影响着评价的质量。本研究着眼于自动化的提高参考译文的语言学覆盖度。本文在不依赖于额外的语言学数据的情况下,实现了参考译文的扩展,并且在参考译文中实现了对不同层次,不同尺度的片段的替换。基于自动扩展的参考译文集合,宏观自动评价方法的性能得到了进一步的提高。3.基于单语语言学检测点的自动诊断方法。机器翻译的微观评价,或称诊断方法是自动评价方法中的全新课题,在国内外受到普遍重视,但是尚处于起步阶段。本研究着眼于提出完整的,全自动的机器翻译诊断体系。该体系从单语的角度,对机器翻译系统在不同重要语言现象上的翻译能力予以评价,为翻译系统的研发者提供多角度,多层次的诊断信息,为实现有针对性的系统开发提供有力的帮助。该研究的成果已经被国内的机器翻译评测选用为评价指标之一。4.面向双语转换的自动诊断方法。机器翻译的根本任务是实现从源语言到目标语的转换。双语转换的质量是机器翻译的根本问题。在单语诊断方法的研究基础上,本研究旨在实现面向双语转换的自动诊断系统。新的诊断系统通过直接对双语转换进行识别,获取,分类和统计来实现对翻译能力的更为直接的评价。另一方面,本研究还首次提出了翻译错误成因的自动分析以及针对词序转换错误的专门分析等新的方法。综上所述,本文的主要贡献在于通过新的相似度评价手段,机器学习方法以及参考译文的扩展,提高了宏观自动评价方法的整体性能,为宏观评价方法中的若干关键技术提供了新的思路。在微观评价的自动诊断技术领域,做出了开拓性的工作,分别从单语和双语的角度,提出了较为完整的自动诊断体系,为机器翻译的研究者提供了全新的评价方法。新的诊断方法一方面促进了机器翻译研究的发展,另一方面,也为今后的微观评价研究提供了借鉴。

巢文涵[7]2008年在《基于双语语料库的机器翻译关键技术研究》文中进行了进一步梳理机器翻译的研究由来已久,但尚未能完全达到人类期望的目标。随着计算机软硬件技术的高速发展,以及语料库建设的完善,利用统计知识的机器翻译成为可能,翻译质量有望离人类的期望更近一步。自噪声信道模型,尤其是最大熵模型提出以来,机器翻译的一个中心任务是如何在模型中融入更有效的知识(特别是语言学知识),以进一步提高机器翻译的质量。本文聚焦于中文-英文之间的机器翻译问题,针对如何有效地在基于中英双语语料库的机器翻译中结合句法知识进行了一系列系统、深入的研究,并形成了一套完整的系统。具体来说,本文包括以下工作:1.提出了一种基于句法知识的词对齐模型及方法。词对齐是统计机器翻译的基础,词对齐的质量将会最终影响到机器翻译的质量。针对中英文之间词对齐的困难,本文提出一种词对齐改进模型,在词对齐过程中引入句法知识,以解释中-英词对齐之间复杂的词序变化。本文首先将反向转录文法(ITG)内隐式的约束转换成显式的位置判断,从而可以有效地将ITG模型引入对数线性词对齐模型。同时,设计了句法分析树与ITG之间的相似度度量,将句法分析树的约束融入到基于ITG的词对齐模型中。通过整合两种类型的句法知识,使得可以对词对齐中的词序变化进行更好的约束。2.提出了一种树-树映射的统计机器翻译模型及方法。由于源句子和目标句子的词序差异,重定序(Reordering)处理翻译过程中目标词顺序的变化,它是统计机器翻译(SMT)过程中需要面对的难题之一。本文提出一种树-树映射的统计机器翻译模型,通过在源句子的句法树与ITG树之间进行映射,实现在全局范围内约束目标短语的顺序变化;同时模型中包含了基于ITG的局部重定序模型特征,通过将两个块的方向预测分解成对两者相邻子块的方向预测,从而能够预测任意长度的两个块之间的翻译方向。局部模型与全局模型的集成,有效地解释了源句子与目标句子之间的复杂关系。3.给出了一种基于双语信息的相似实例检索方法。基于实例的机器翻译(EBMT)采用类比的原理进行翻译,在给定相似实例的条件性,能够产生流畅的译文。因此,如何在大规模的实例库中检索出相似实例,对于EBMT的质量具有重要意义。本文提出一种新颖的相似实例检索方法,利用实例中的词对齐信息,设计了一系列相似度度量,用于计算输入的待翻译句子与训练语料库中实例的相似度,提高了检索的质量;同时,为加快检索的速度,设计了一个双层倒排索引表,提高了检索的效率。4.提出了一种基于实例的统计机器翻译模型及方法。前文提出的树-树模型是从源句子的角度出发,尽量确保生成的译文结构满足与源句子句法树的约束关系。因此,它无法保证目标句子结构的合理性。本文提出一种混合模型,该模型是对树-树模型的扩展,在SMT中结合实例知识,以保证译文的结构合理性以及流畅性。同时,给出了一个基于实例的解码器,它结合统计知识以及实例信息,以提高解码的质量和效率。

武斌[8]2007年在《面向俄文信息处理的机器翻译实验研究》文中进行了进一步梳理本文的主要内容是面向俄文信息处理的机器翻译实验研究。一般而论,要研制实用的机器翻译系统,必须要有一套完整的、逻辑性强的、适用于计算机处理的翻译理论体系。然而,通过研究俄罗斯机器翻译的历史与现状,探索机器翻译系统设计的语言学保障和程序保障,我们发现,目前国内外还没有一套比较成熟而有效的俄汉机器翻译理论。因此,如何提高俄语文本尤其是军事文本的机器翻译正确率,将是本课题研究的重点和主攻方向。在对国内外基于规则的俄汉机器翻译软件实际使用后,我们发现,如果继续沿用传统的基于语法规则的自动翻译方法,要想大幅提高俄语军事文本翻译的准确率是相当困难的。通过将几种机器翻译方法进行对比分析,我们认为,从工程实施的角度来看,以翻译记忆(Translation Memory, TM)技术为核心的计算机辅助翻译应该是最佳选择。一方面,军事文本在词语、句型、结构等方面相似度高,术语和语句的重复率大,这正是可以发挥TM技术优势之处;另一方面,军事文本的翻译对于时效性和准确率要求较高,这是其他翻译形式所无法胜任的。本文的主要学术价值在于:系统介绍了俄罗斯机器翻译研究的历史与现状,客观分析了机器翻译未来的发展方向,提出了基于TM的计算机辅助翻译系统的核心技术和实现方法。本文的研究将有助于拓宽机器翻译应用研究的范围,提高现有机器翻译系统的性能,为研制开发军事用途俄汉机译系统积累一定的经验。论文由绪论、正文四章、结论和参考文献组成。绪论部分主要介绍论文的选题动机、研究的目的和意义、学术新意及语料来源等。第一章“世界科学计算机化语境下的机器翻译研究概述”,首先对翻译与机器翻译进行界定,然后概述机器翻译研究的历史与现状,详细介绍机器翻译研究的几种基本方法。第二章“苏俄机器翻译系统解析”,首先扼要介绍《意思?文本》语言学模型理论,然后通过对几个典型机器翻译平台,包括ETAP系统、RETRANS系统以及LINGTON系统进行解析,指出各个系统针对俄文信息处理积累的经验与存在的不足。第三章“机器翻译系统评价”,首先概述机器翻译评价的理论与方法,然后运用机器翻译评价的相关理论,以机器翻译的在线资源为手段,对包括俄汉译通在内的三个俄汉机器翻译引擎进行综合评价。第四章“俄汉军用文书机器辅助翻译系统的设计与实现”,根据军用文书的语体特征,揭示基于TM技术的机器辅助翻译的优势,论述研制此类系统的语言学保障和程序保障。结论部分对本论文的理论与应用研究成果进行总结,指出尚待解决的问题。

胡曾剑[9]2000年在《交互式多策略机器翻译系统(IHSMTS)面向对象分类模式库的研究》文中研究指明进入九十年代以来,INTERNET以前所未有的速度迅猛发展,它正在深刻地改变着人们的生活方式。但是,互连网上的语言障碍却时刻困扰着我们,语言问题已经日益成为束缚INTERNET发展的最主要因素。 机器翻译在解决网上语言障碍问题上有着得天独厚的优势。市场上出现了许多网上在线翻译系统,它们通过内置的翻译引擎将网上的外文信息自动翻译成用户的母语,从而部分解决了INTERNET上的语言障碍问题;但是,由于机器翻译固有的困难性,目前这种完全自动的翻译系统还很难达到用户对翻译质量的要求,译文经常错误百出,难以令人满意。 解决网上语言障碍的另一种办法是通过一些翻译机构,他们定时下载一些外文页面,经过专业翻译人员进行翻译之后再将译文上载。这种方法能够保证译文的质量,但是翻译完全是由手工完成,效率难以保证。 为了解决上面两方面的问题,我们提出了交互式多策略机器翻译(IHSMT)的思想。系统综合了以上两种方法的优点,提供了一套完善的人机互助的翻译机制,因而能够快速高效地得到较为准确的翻译结果。另外,在系统中集成了RBMT和CBMT两种翻译策略,实现了二者的优势互补。实践证明,本系统的翻译效果较之其它单一策略的系统有了明显提高。 本文以交互式多策略的思想为背景,主要对系统CBMT翻译引擎中模式库的设计与实现问题进行了探讨。 首先,提出了一种基于信息熵的属性相似度权值计算方法,使属性权值的设定具有很好的客观性,避免了主观设定权值带来的的不准确因素。 其次,提出了面向对象的分类模式库的思想,有效地对模式库进行了组织,方便了模式库检索,添加等操作的实现。 最后,提出了系统知识库的三种知识获取机制:手工添加,通过机译生成信息以及通过人工双语语料。本文着重对后两种知识获取过程进行了研究。并且,根据知识库的正确性和精练性的要求对模式的入库过程进行了探讨。

刘鹏远[10]2008年在《基于知识自动获取的无指导译文消歧方法研究》文中研究指明这是个互联网的世界,使用高效的搜索引擎在互联网获取信息已经成为当代人们获取信息的最重要手段。在日益国际化的信息中,不同种语言之间的理解与处理一直存在着难以逾越的鸿沟,这就形成了人们对机器翻译、跨语言信息检索与处理的迫切需求。目前对此研究仍有诸多难题亟需解决,其主要之一就是,如何为源语言多义词选择语义正确对应的目标语译文词汇的问题,称之为译文消歧。译文消歧及与之相似的在单语范畴内的词义消歧一直是自然语言处理领域基础研究课题,它也是自然语言处理技术的重点和难点之一。针对译文消歧及词义消歧的现状,通过对各类无指导消歧方法的比较分析,本文认为,目前无指导译文消歧的关键问题是消歧知识的自动获取与利用、克服数据稀疏及双语语义词典建设。因此,本文没有在机器学习算法、消歧特征选择等问题上做过多的研究与探讨,而是充分关注与挖掘无指导译文消歧方法中最核心的内容——知识获取,利用这些消歧知识来完成无指导译文消歧任务,同时克服数据稀疏问题。由此思想出发,本文提出了一系列逐步递进的无指导译文消歧知识获取以及消歧的创新方法,这些创新方法均利用了国际标准语义评测语料进行评测与对比分析,并均超过了以往可比较的最好无指导系统。最后,本文还进行了另一个关键问题的研究,即双语语义词典的自动构建。本文具体研究内容包括以下几个方面:1.自动获取带标记目标语语料,并直接形成译文消歧模型,提出利用该模型进行译文消歧的方法。在此基础上,提出了等价伪译词概念以及等价伪译词的构造方法,并以此实现无指导的译文消歧。最后在国际语义评测数据集Senseval-2 ELS上进行了实验与比较;2.通过对双语语料库间接关联的观察,提出利用双语词汇间接关联度的完全无指导译文消歧方法。在计算间接关联度的过程中充分利用了Web资源,设计了Web的词汇间接关联度(Web_IA)的计算方法,在消歧过程中利用了三种不同的决策方法进行决策。随后,针对基于间接关联方法的不足,本文将整个Web视为语义词典,直接利用Web进行双语词汇语义相关度(WBR)的定义分析以及计算。经过对WBR方法在一个经改造处理的标准语义相关度测试集上的比较实验,证明该方法可行后,设计了基于WBR的完全无指导译文消歧方法,并在同一个国际标准语义评测数据集Semeval2007上的task5与基于Web_IA方法做了详细的对比实验;3.通过对歧义词同义词集合内词汇语句序列的观察,提出了一种基于Ngram语言模型以及Web挖掘的无指导译文消歧方法。该方法认为歧义词不同词义所对应的N-gram语言模型模式不同,且利用的是语言模型知识而非语义知识。随后在同一个标准集上的对比评测表明,该方法取得了极为优异的性能。性能超过了该任务可比较最好无指导系统TorMD12.8%(Pmar值),最后,还进行了基于语言模型的方法与基于语义模型的方法的详细比较及性能上限的讨论;4.研究了利用WordNet、HowNet以及大规模双语平行语料库自动生成面向译文消歧的的双语词典的方法。该方法充分利用大规模平行语料库内丰富的词汇对齐知识以及各项统计信息,利用WordNet及HowNet语义资源的相似度计算,形成了一部同时带有双语语义信息及语料库统计信息的词典。综上所述,本文基本上给出了面向知识自动获取的无指导译文消歧的一整套解决方案,特别是其中基于Web的各种方法,为自然语言处理中的难题之一——译文/词义消歧,在基于Web搜索的研究思路上进行了初步探索。

参考文献:

[1]. 面向机器翻译的双语信息处理系统的设计与实现[D]. 宋继平. 中国科学院研究生院(计算技术研究所). 1999

[2]. 面向网络实时翻译的双语信息管理系统BLIMS设计[D]. 宋今. 中国科学院研究生院(计算技术研究所). 1997

[3]. 面向网络实时翻译的双语信息管理系统BLIMS[C]. 宋今, 黄河燕, 陈肇雄. 1998年中国智能自动化学术会议论文集(下册). 1998

[4]. 中国少数民族语言电子文件集成管理的体系架构研究[D]. 赵生辉. 武汉大学. 2012

[5]. 基于实例的汉维—维汉双向机器翻译系统的研究[D]. 卡哈尔江·阿比的热西提. 上海交通大学. 2012

[6]. 机器翻译系统的自动评价及诊断方法研究[D]. 王博. 哈尔滨工业大学. 2010

[7]. 基于双语语料库的机器翻译关键技术研究[D]. 巢文涵. 国防科学技术大学. 2008

[8]. 面向俄文信息处理的机器翻译实验研究[D]. 武斌. 中国人民解放军外国语学院. 2007

[9]. 交互式多策略机器翻译系统(IHSMTS)面向对象分类模式库的研究[D]. 胡曾剑. 中国科学院研究生院(计算技术研究所). 2000

[10]. 基于知识自动获取的无指导译文消歧方法研究[D]. 刘鹏远. 哈尔滨工业大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

面向机器翻译的双语信息处理系统的设计与实现
下载Doc文档

猜你喜欢