多字体印刷蒙文字识别技术的研究

多字体印刷蒙文字识别技术的研究

李伟[1]2004年在《多字体印刷蒙文字识别技术的研究》文中指出文字识别是集模式识别、人工智能与文字处理于一体的高新技术,能自动地把文字或其他信息通过智能识别输入计算机,用以代替人工输入。文字识别不仅有广泛的应用领域,而且也促进了模式识别、文字处理技术的发展。该领域一直是国际上计算机智能技术的研究热点,也是我国高技术研究计划(863计划)重点支持的主题。蒙古文是内蒙古自治区的主体民族语言,在中国,使用蒙古文的地区除了内蒙古自治区,还有黑龙江、吉林、辽宁、新疆等省和自治区。目前,大部分输入方法的研究集中在键盘编码输入方式上,对蒙文字识别的研究非常少,关于印刷体蒙文识别输入的研究还是一个空白点,这严重地制约了信息技术在少数民族地区的普及和应用。针对这种现状,我们提出研制多字体印刷蒙文识别系统,为蒙古文的输入提供一种智能的输入方式,这对继承和发展少数民族文化、促进民族地区的社会进步具有重要的意义。 蒙文在内蒙古自治区使用广泛,但输入均使用键盘编码输入方式,蒙文自动识别输入还是一个空白点。因此本课题的研究为蒙文输入提供了一种新的自动化和智能的方式,使蒙文信息处理达到一个新的水平。蒙古文字是拼音文字,但其书写方式在当今世界是非常独特的,与汉文和西文有很大不同。蒙文是从左到右、从上到下竖写,每个词中所有字母连着写,形成一个竖直的主干线,且每一个字母在一个词中的词首、词中和词尾所取的字形不一样。这些特点给蒙文的识别带来很大的困难。因而在研究的过程中,我们不仅要充分消化和吸收西文和汉文识别所采用的技术,还要结合蒙文书写的特点有所创新,才能较好地解决所遇到的困难。研究课题的目的是:从文字识别的角度来研究蒙文字特征的选择及特征提取、基元分割、匹配等一系列问题,开发出一个有良好人机界面,操作方便的多字体印刷蒙文识别系统。

魏宏喜[2]2006年在《印刷体蒙古文字识别中关键技术的研究》文中研究表明蒙文输入法的研究开始于上世纪八十年代初期,主要集中在键盘输入上,对蒙文文字识别的研究非常少。针对这种情况,我们提出研制一套多字体印刷蒙文识别系统,为蒙文提供了一种快速、高效、智能的输入方式,这对继承和发展少数民族文化、促进少数民族地区社会进步都具有十分重要的意义。本文在总结前人研究成果的基础上,进行了诸多改进和创新。主要研究内容包括: 1、蒙文文本图像的自动倾斜检测。提出了一种基于最小二乘法的蒙文文本图像的倾斜检测方法:先找到图像中的文字连通域,然后依据连通域的上下位置进行文字列的合并;对同一列中的每个连通域以它们的质心为参考点,使用最小二乘法进行直线拟合,可以得到倾斜角度。 2、蒙文文本图像的版面分析。提出了一种基于连通域的蒙文文本图像的版面分析方法,它是一种“自底向上”与“自顶向下”相结合的方法,先搜索版面中的连通域,然后依据连通域的大小进行聚类分析,可以得到不同类型的版面元素,最后把文字连通域合并成文字列和文字块。 3、蒙文字母切分方法的研究与实现。提出了一种基于主干线的蒙文字母切分方法,为进行特征提取和特征匹配提供前提条件。 4、蒙古文字特征选择。在充分分析印刷体蒙古文字特点的基础上,找到了适合进行蒙文识别的多个特征,包括:粗分类特征和细分类特征。 实验证明,以上关键技术的实现,使得印刷体蒙古文字识别系统的性能和

包艳花[3]2007年在《蒙古文识别文本后处理相关技术研究》文中研究说明文字识别属于模式识别的重要分支,它还涉及到图像处理、人工智能、信息论、形式语言与自动机、模糊数学、语言学等多门学科。目前,以汉文,英文等主要字符集为识别对象的研究已投入应用。蒙古文信息处理工作自20世纪80年代开始至今,进行了一些基础工程的建设和基础理论的研究,也开发过一系列应用系统。但是同国外及国内其它文字的识别相比,蒙古文识别研究起步较晚。本文从文字识别角度充分考虑蒙古文自身的特点及蒙古文识别研究现状的基础上,对蒙古文识别文本后处理技术进行了研究。利用蒙古文语言先验知识对编码转换过程中的二义性问题进行了处理,对系统识别率的进一步提高起到一定的积极作用。论文的结构与内容:第一章主要介绍了此项研究的目的,文字识别的一些基本概念,蒙古文识别已往的研究,蒙古文识别的难点和主要研究内容等与本文有紧密联系的一些基础研究;第二章简要介绍了“多字体印刷蒙古文(混排汉英)文档识别系统”的核心识别方案,系统基础资源建设情况;第叁章讨论了“多字体印刷蒙古文(混排汉英)文档识别系统”文本后处理模块的实现过程,主要探讨了字素合并过程和形名转换过程;第四章阐释了进一步的工作及相关研究展望;最后部分是结束语。关于本文中涉及到的基本识别集,各类标准样本、规则库、OCR词典等的样本附于附录中。

苏向东[4]2011年在《蒙古文古籍识别技术的研究》文中进行了进一步梳理目前,我国有大量的蒙古文古籍以图像的形式保存在图书馆中。这些古籍文档内容涉及宗教、历史、文化、艺术、天文、地理、民族、医学等诸多方面,是人类文化的宝贵遗产。但图像格式的古籍文档不利于研究人员的编辑,检索、以及更进一步的统计分析。因此本文以木刻印刷的《御制蒙古文甘珠尔经》为研究对象,对蒙古文古籍文档的识别进行了深入研究,对蒙古文古籍的识别提出了行之有效的解决方案,以期推动蒙古文古籍文档的电子化,为蒙古文古籍的挖掘和利用提供便利,从而促进蒙古文化的传播和发扬光大。本文分析了蒙古文以及蒙古文古籍的特点,在此基础上提出了蒙古文古籍识别的方法。在预处理阶段,通过对古籍的自身特点的分析,本文选取合适的方法对蒙古文古籍文档进行倾斜校正,二值化和去噪处理。在文档分割阶段,本文依据水平投影对文档图像进行列切分,然后根据最大连通域对每一列进行词切分。在单词切分后,进一步依据主干线将蒙古文单词切分成字元(Glyph Unit Abbr. GU)。每个字元由不超过叁个蒙古文字母组成。在特征提取阶段,我们根据分类要求,共提取字元的八种特征:LP, Euler number, BD, DCT, DWT, PCA, Con&Pro, and EPI。在分类阶段,我们采取叁步分类的方法。在第一步,我们利用决策树进行将所有的字元分到九组字元中的一组。在第二步,对每组字元,我们利用5个BP神经网络对该组字元进行识别。5个神经网络的输入分别为字元的五种特征向量。在第叁步,通过对5个神经网络返回的5组结果综合生成每组字元的最终的识别结果。对每组识别后的结果,我们采取基于加权编辑距离的错误校正算法对结果进行校正,并最终生成编码的蒙古文古籍文档。本论文共选取了20页蒙古文古籍文档进行了实验。统计实验结果,蒙古文单词字元切分准确率96.2%,最终单词识别的准确率达到了71%。由于蒙古文古籍是由多人书写木刻印刷而成,每一个文字存在多个不规范的变体,字母的重迭相交的问题比较明显,所以切分和识别难度较大。所以本文在文蒙古文古籍的识别率是令人满意的。

包艳花, 图格木勒[5]2006年在《多字体印刷蒙古文识别后处理研究》文中提出随着计算机技术的迅速发展,各民族文字都面临着“信息化”。西部大开发策略的实施,给我们少数民族文字的信息化带来了政策上的支持。为了把大量的书籍、报刊、单据、报表等“电子化”,人们纷纷研制出各种省时、省力的计算机输入法。其中包括扫描输入法。虽然蒙古文识别研究开展得比较晚,但是通过借鉴其他文种的识别方法和经验。蒙古文识别研究进展得很顺利。本文介绍了多字体印刷蒙古文识别研究中所涉及到的一些基础性工作的进展情况,并提出了继续深入研究的内容。

苏向东[6]2016年在《基于深度学习和知识策略的蒙古文古籍识别研究》文中研究说明蒙古文古籍为研究蒙古社会政治和历史文化提供了丰富和可靠的资料。为更好地抢救、整理和利用蒙古文古籍,内蒙古大学图书馆启动了古籍电子化工作,将其扫描转换成图像格式存储,并向读者提供了电子化服务。但是,古籍图像不能再编辑,且检索效率低,分析和挖掘难度大,亟需利用文字识别技术将其转换为文本文档。蒙古文古籍采用木刻雕版工艺印刷,具有排版不够规整、字形差异显着、文字颜料扩散和脱落等特点,给识别工作带来很大挑战。本文以《御制蒙古文甘珠尔经》为研究对象,在蒙古文古籍识别方面开展了一系列研究,主要内容如下:1.本文提出了蒙古文古籍单词的有效识别方法。在分析整词识别和基于切分的单词识别两种方案优缺点的基础上,结合蒙古文古籍单词特点,提出了整词识别和基于切分的单词识别的混合策略,对高度较低且字形基元切分难度大的单词采用整词识别的方法进行识别,对其余单词采用基于字形基元切分的识别方法进行识别,通过实验确定了两种方法的选择依据。2.本文提出了半自动样本选取方法。为达到理想的识别精度,需要大量样本训练识别中使用的卷积神经网络,为克服人工选取样本效率低的缺点,提出了半自动的样本选取方法,首先利用分类器对未分类的全部样本进行粗分类,然后人工去除每类中不正确的样本,最后将每类中剩余样本作为最终训练样本。训练样本选取分类器的过程采用了书写者适应性调整、利用形态学方法生成伪训练样本、多次循环策略。3.本文提出了蒙古文古籍单词的字形基元切分方法。由于蒙古文古籍单词存在严重的形变和字形基元重迭现象,针对机器印刷体蒙古文单词的切分方法难以奏效。分析了蒙古文古籍单词外形特征,提出了基于轮廓分析的字形基元切分方法,首先提取单词轮廓上的关键点,其次利用轮廓关键点定位单词主干线,最后利用轮廓关键点和主干线信息生成分割线。为简化轮廓关键点检测步骤并避免轮廓噪声的影响,利用多边形作为单词外轮廓的近似。4.本文提出了叁种基于知识的策略来提升单词识别精度。在基于切分的单词识别方法中,字形基元的识别结果用于生成单词的识别结果,通过分析识别结果,发现导致单词识别错误的原因是字形基元切分不合理和字形基元识别错误。为进一步提升单词识别精度,结合蒙古文的构词知识提出叁种策略并应用于字形基元识别环节,分别是整合主干线信息策略、字形基元分组策略,以及识别欠切分和过切分片段策略。5.本文提出了古典蒙古文词典的构建方法和基于字形基元相邻规则的错误检测方法,并评测了基于词典和基于字形基元相邻规则的错误检测方法各自的性能,分别采用加权编辑距离模型和噪声信道模型进行错误校正,根据识别结果和字形知识为这两种模型分配编辑操作的权重,结合识别方法简化噪声信道模型以减少计算量。

图雅[7]2009年在《蒙古语文字的性质及其词式书写研究》文中研究说明蒙古语文字是内蒙古自治区少数民族的主体语言文字。它有着悠久的历史,在世界范围内也很有影响。在我国,使用蒙古语文字的地区除了内蒙古自治区以外,还有黑龙江、吉林、辽宁、新疆等地区。现行的蒙古语文字在漫长的历史进程中经历了回鹘文字、传统(回鹘式)蒙古语文字、八思巴文字、索永布文字、瓦金德拉文字、托忒文字、斯拉夫(基里尔)文字等文字类型的使用过程。蒙古语文字在记录优秀文化遗产、民俗研究等方面起到了巨大的作用。本文以普通文字学和比较文字学理论为指导,选取蒙古语文字作为研究对象,对蒙古语文字进行深入细致的描写。在分析蒙古语文字的字、部件和词式书写特点的基础上,进—步探索蒙古语文字的性质,认为它是—种没有字距只有词距的音素文字,详细把它跟汉字、英文字母、朝鲜语文字进行对比分析,并从语言规范化的角度对黏语文字中存在的问题进行探讨。本文—共包括6个部分:第一章绪论,介绍研究的内容、方法,着重分析蒙古语文字研究的意义、历史以及以往相关研究的不足。第二章简单介绍蒙古语文字的基本情况,包括蒙古语文字的产生和发展演变的情况,蒙古语文字中的字和词的关系,蒙古语文字的字序和行序等。第叁章是蒙古语文字的性质类型研究。本章通过对蒙古语文字的个体进行细致的剖析,深入探索蒙古语文字的性质,找出蒙古语文字中存在的问题,对蒙古语文字的规范化问题提出—些建议。第四章是蒙古语文字、汉字、英文字母、朝鲜语文字之间的对比研究。通过对比研究,归纳出它们之间的异同。第五章是蒙古语文字的词式书写。本章首先对蒙古语文字的词式书写进行实践分析,然后与汉字文本的词式书写进行比较,对蒙古语文字的词式书写特点进行归纳总结,指出其中的不足。第六章是结语。概括本文的主要观点并且得出结论,说明还需要进—步深入探讨的问题。

毛瑞[8]2018年在《印刷体托忒蒙文文字切分》文中研究说明切分作为OCR识别系统的前期工作,是一个重点与难点,为保证识别的正确性,对切分工作的准确度与高效性的要求就显得尤为重要。托忒蒙古文是粘连性语言,字母与字母通过主干线相连,之间无空白间隙,字母在字首、字中、字尾不同位置时存在叁种书写方式,字体变形较大,切分难度高。基于上述原因,本文在分析了蒙文实际研究现状与切分技术的发展现状后,采用了积分投影法结合轮廓跟踪法的字母切分方法。本文的研究目的是在分析托忒蒙文文字特点的基础上,选取对托忒蒙文文字最为合适的切分方法,并对字符切分过程中遇到的难点问题进行了研究。下面介绍本文所做的基本工作。(1)对扫描得来的文档图像进行预处理,分析并选取中值滤波算法去噪,选择最大类间方差法进行二值化,最大化消除图像干扰信息,为后面字母切分的准确性做好前期工作。(2)将图像逆时针旋转90度,原本竖直的主干线呈水平分布,文档图像中的文字方向也呈水平分布,更便于进行切分。针对托忒蒙文字母中独特的笔画附件可能产生的误切分参考了标记锁的解决方案,利用形态学运算进行一系列开闭运算,将笔划附件划归回邻近词段,避免产生行的误切分。(3)采用积分投影法进行字母切分实验,但由于托忒蒙文单词普遍字母相连的特点,切分效果不理想,存在误切分、过切分。针对误切分问题联合了轮廓跟踪法,针对过切分问题利用Ramer-Douglas-Peucker算法对蒙文单词外轮廓进行近似多边形的计算,字母切分处理效果以积分投影法结合轮廓法效果最佳,实验用30幅文字图像,共计66715个字母,切分准确率可达到97%以上。

王霈珺[9]2013年在《基于语言模型的OCR识别后蒙古文文档错误校正方法的研究》文中研究指明随着互联网的不断发展,网络已经成为人们共享信息的一个大平台。文献资料数字化技术的出现满足了人们获取信息的需求。将纸制版和图片形式的蒙古文文献资料进行数字化处理有利于蒙古文资料的管理、利用和传播。在数字化处理过程中,OCR (Optical Character Recognition)识别后的蒙古文字符会发生识别错误。因此,对蒙古文文档进行错误校正具有非常重要的研究意义。本文首先根据蒙古文的语言特点制定规则库,将大量国标码形式的语料根据规则转换为智能编码形式的语料,完成蒙古文语料库的构建。其次,对语料库进行训练,建立N-gram语言模型,并用平滑算法解决数据稀疏问题。然后,对比原始蒙古文文档和对应的识别结果,统计字符识别情况,建立OCR字符混淆模型,将混淆概率较高的字符作为易错字符。最后采用语言模型对OCR识别后蒙古文文档中的易错字符进行错误校正。实验结果表明基于语言模型的错误校正有着较好的校正效果,校正后OCR的系统错误率由1.91%降低到0.66%。

参考文献:

[1]. 多字体印刷蒙文字识别技术的研究[D]. 李伟. 内蒙古大学. 2004

[2]. 印刷体蒙古文字识别中关键技术的研究[D]. 魏宏喜. 内蒙古大学. 2006

[3]. 蒙古文识别文本后处理相关技术研究[D]. 包艳花. 内蒙古大学. 2007

[4]. 蒙古文古籍识别技术的研究[D]. 苏向东. 内蒙古大学. 2011

[5]. 多字体印刷蒙古文识别后处理研究[C]. 包艳花, 图格木勒. 中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集. 2006

[6]. 基于深度学习和知识策略的蒙古文古籍识别研究[D]. 苏向东. 内蒙古大学. 2016

[7]. 蒙古语文字的性质及其词式书写研究[D]. 图雅. 湖南师范大学. 2009

[8]. 印刷体托忒蒙文文字切分[D]. 毛瑞. 新疆大学. 2018

[9]. 基于语言模型的OCR识别后蒙古文文档错误校正方法的研究[D]. 王霈珺. 内蒙古大学. 2013

标签:;  ;  ;  ;  ;  ;  

多字体印刷蒙文字识别技术的研究
下载Doc文档

猜你喜欢