中文版面分析与重构研究

中文版面分析与重构研究

王宇[1]2003年在《中文版面分析与重构研究》文中进行了进一步梳理将以纸张为介质的文档信息自动转换成数字形式是一项很有意义的工作。经过数字化,可以很容易地实现对文档基于内容的检索,可以用较少的存储空间保存较多的文档资料。 在印刷文档数字化过程中,版面的分析、理解与重构是十分关键的问题。本文结合一个实际开发的文档自动处理系统,重点探讨了这叁方面的实现技术。针对复杂程度各异的中文文档,提出了一个基于复杂度策略选择的版面分析方法。对于简单版面采用快速有效的基于投影的自顶向下版面分析方法;而复杂版面则采用适应性较强的基于模糊连接度和行列置信度的自底向上版面分析方法。版面理解的实现使用基于规则的方法。版面重构的技术和实现围绕RTF和HTML两种文档格式来讨论。综合这些技术和算法并结合文字、表格识别等模块,实现了完整的自动文档处理系统。实验和实际运行的系统证明了所采用方法的有效性和系统的实用性。

李艳[2]2008年在《智能阅读服务机器人系统关键技术研究》文中指出本文介绍了一种智能阅读机器人的设计思路、相关理论技术以及版面分析模块的设计与实现。根据世界卫生组织资料,目前,全球有全球约有4500万盲人,1.25亿人视力受到损伤。为了服务盲人和弱视群体,使他们能够平等地参与社会活动,提高他们获取信息的能力,综合运用机械设计与制造、计算机视觉、图像处理、文字识别、语音识别、语音合成、人工智能等多种高新技术开发一种能够为盲人和弱视者进行自主导航,并帮助他们自动阅读图书资料和浏览互联网信息的智能阅读服务机器人系统具有显着的社会意义和实际应用价值。本机器人由语音进行控制,是具有阅读、语音上网的智能阅读服务机器人系统。本文针对该机器人阅读系统的版面分析以及网页浏览的网页结构分析为主要研究内容,具体包括两方面。本文首先研究了一种常见于学术期刊的,存在左右分栏以及页眉的无嵌入式文档版面分析方法。本文讨论了将这类文档版面进行分割,划分出页眉以及主体版面的各个段落、标题的技术及实现。本文还研究了一种由网页文本预处理、网页信息特征提取,文本分类和网页页面分割与重构四部分内容组成的HTML网页分析方法。实践表明,本文提出的算法有很好的版面分析效果与网页结构分析结果,可以满足智能阅读系统中对于文档版面分析与网页结构分析的需求。

钟辉, 孙士兰, 刘倩[3]2008年在《中文版面分析和重构》文中进行了进一步梳理目的在将纸张文档数字化的过程中,解决中文文档版面信息的自动提取与恢复问题.方法通过搜索连通域,并根据连通域的尺寸特征,优先提取非文本区域,对提取出来的非文本区域,根据投影直方图、宽高比和黑白像素比等特征区分出表格、直线和图像;对文本区域采用改进的基于投影的纵横切割法来达到对文本正确分割的目的;利用XML文档文件格式描述、组织、恢复原有版面的数据和样式.通过重构生成保持原版面格式的通用电子文档,达到"原文重现"的目的.结果对大量的书籍样张和带表格、图像以及横竖混排等复杂样张的试验,结果表明改进的版面分析方法分割准确,速度快;基于XML技术的重构方法实现了对文档版面较精确的重构.结论采用统计特征得出的阈值参数用在了改进的版面分析方法中,提高了系统的适应性.该方法对较规范的文档效果较好,对复杂版面在一定的人工干预下基本可以适用.

靳从[4]2007年在《中文版面分析关键技术的研究》文中研究指明版面分析是版面信息处理系统的重要组成部分,旨在将纸制文档内容转化为电子信息,以便进一步通过版面理解实现版面数字化。版面分析的正确性,直接影响到版面理解的结果,进而决定着版面信息处理系统输出结果的语义关系和逻辑关系是否正确。在各种版面文档中,中文版面以其排版形式的多样化,以及汉字的多笔划等特点,使版面分析远较西文版面为复杂,以致成为当前版面分析技术的瓶颈。因此,对中文版面分析的研究具有重要的理论意义与实用价值。版面分析的主要内容在于分析版面的几何结构。由于版面的复杂性,版面分析所涉及的内容非常广泛。不同类型的版面反映的信息不同,版面分析过程所需的处理方法也不同。本文对中文版面分析过程中所涉及的若干关键技术进行了深入的研究,主要包括版面倾斜检测、版面区域分割与识别、版面对象顺序确定,以及表格识别等技术,其中具有创新性的研究成果主要体现在以下几个方面:1、基于视窗变换的版面倾斜检测算法版面在扫描输入时,不可避免地会发生倾斜现象,以致对后续处理产生影响。为对版面进行倾斜检测与校正,该算法首先选取适当视窗,通过对视窗内容细节部分进行变分辨率处理,提取相关特征点进行直线拟合,达到检测版面倾斜角度的目的。实验结果表明,该方法能快速准确地检测出各类版面的倾斜角度,并具有良好的适应性。2、基于版面边缘增强的版面倾斜检测算法考虑到版面复杂度对视窗选取效率的影响,本文又提出了一种基于版面边缘增强的版面倾斜检测算法。该算法首先对倾斜的图像利用算子进行处理,得到一个图像块,.该图像块的边界信息能较好的表示原版面的边界信息,然后,用4-方向链码表示该图像块的边界,从图像块中提取近似直线信息。最后,用最小二乘算法进行直线拟合,计算版面的倾斜角度。实验结果表明该算法准确度高、速度快而且与图像的内容无关。3、基于层次提取的版面分割与识别版面分割与区域识别是将版面进行空间划分,生成若干包含不同数据类型的区域。该算法首先将版面划分为图像、图表和文本等多个层次,先对版面中的图像层和图表层中的主要线段分别进行提取,再利用连通区域法对文本层进行分析,通过文本“模糊”、边缘检测、段落提取、投影周期性的判断,对图形、表格与文本各部分加以区分。可以看出,该算法将版面分割与区域识别相结合,提高了算法的效率。4、基于有向图的版面对象顺序确定该算法利用版面对象的空间结构建立空间结构有向图,将版面对象之间的顺序确定,转换为在有向图空间进行遍历搜索的过程,通过图的遍历生成遍历树来确定版面对象顺序。实验结果表明该算法有效。5、基于面向对象的有向图模型表格识别方法该算法首先提取空表格中各对象的特征及属性,建立相应表格模型,再对待识别表格提取特征,采用两级匹配,充分利用其与模型之间特征线及相关特征线的匹配相似度,结合逻辑关系确定表格类型,达到表格识别的目的,从而提高了表格识别的正确率。实验结果表明,该方法具有高效、灵活的特点。最后,本文建立一个票据版面分析实验系统,并在此实验系统基础上,对文中所提出的版面倾斜检测、版面分割与识别、版面对象顺序的确立及表格识别等算法进行了相关实验。实验结果表明,本文所提方法,在票据版面分析中,实际应用效果良好,所提方法具有通用性。

李小锋[5]2010年在《基于非文本图像优先的中文版面分析技术研究和应用》文中认为OCR技术是将纸质印刷文字转换为可编辑文字的主要手段之一。对于一般纯文本版面,OCR识别率目前可达到100%。而对于图文混排的版面在OCR识别前需要对版面进行版面分析,分离出文本、表格、图形图像甚至标题、公式、分栏等版面元素并进行相应处理。中文版面与西文版面有较大差别。随着中文出版物样式越来越多,版面也千变万化,由于中文版面规范性差,版面内除了图文混排之外,横、竖排版交叉,文本块的字体、字号变化,文本块间的间隔线、花边线繁多。此外由于汉字本身特点,多数汉字由几部分偏旁组成,其偏旁部首容易和标点符号相混淆,上述问题给中文版面分析带来等大的复杂性。版面分析作为OCR识别和文档复原的必要前提,版面分析算法的好坏,直接影响文档识别和复原的效果,而现有的版面分析并不能很好解决这一问题。本课题来源于“视障者阅读辅助器具的研制”,为国家“十一五”科技支撑计划重点项目,该课题的主要目标是研制一种供盲人使用的嵌入式的视听转换装置,该装置采用OCR技术及语音合成技术,将印刷文字转换为语音输出。借助该装置视障者可“阅读”普通纸质书籍。版面分析作为其中重要一个环节,要求版面分析算法能够处理一般常见排版的情况,并在算法效率和算法准确率有一定要求。本文基于上述目的,研究了现有的各种版面分析算法,对它们的优点和缺点加以分析,并根据视障者阅读辅助器具(后文简称为盲人阅读器)的具体要求,改进了现有的版面分析算法,采用递归投影方法辅助连通域的方法,在进行版面划分的同时,将图像区域优先分离,并通过连通域处理其中的文字区域。

陈明, 丁晓青, 梁健[6]2001年在《复杂中文报纸的版面分析、理解和重构》文中研究指明在将纸张介质的文档自动转换成电子文档格式的过程中 ,版面的分析、理解和重构是十分关键的问题。针对复杂中文报纸版面 ,提出了一个基于最近邻连接强度和行列可信度的自底向上的版面分析算法和一个基于规则的块生长的版面理解算法 ,并讨论版面重构的相关问题和实现。综合这些算法并结合汉字识别核心 ,实现了一个完整的自动电子出版物制作系统。实验和实际运行的系统证明了算法的有效性和系统的实用性

李涛[7]2004年在《基于邻域特征的版面分析》文中研究说明版面分析模块是文字识别系统(OCR)的预处理部分,其准确性直接影响OCR的自动化程度。本文针对复杂的中文版面,提出了一个基于邻域特征的版面分析方法,实现了对一般版面的二值图像文档的版面图文分析。版面图文分析采用自底向上和自顶向下相结合的办法,利用基本连通区搜索算法计算出二值图像文档上的基本连通区域,在自顶向下模块的帮助下进行连通区域的初始合并然后再通过规则族做近一步的合并,在全部合并规则族中嵌入了逻辑判断实现了合并结果的稳定性。实验结果表明,该方法能适应一般情况的中西文文档图像的版面分析。

张充[8]2004年在《非文本块优先的中文版面分析》文中研究指明中文版面(特别是中文报纸版面)中文本域与非文本域经常交错嵌入。非文本域对文本域的提取会造成干扰。针对这种特点,本文提出了一种非文本块优先的中文版面分析方法。首先提取并去除文档图像中的非文本块,避免其对文本块提取的干扰。然后对文本域采用了基于游程平滑和最小生成树聚类的分析方法,对不同排版方式的文本分别进行处理。最后根据非文本块的位置,对聚类处理得到的文本块进行分割。实验表明,该方法对横竖混排的嵌入式版面有较好的分割效果。

张志彬[9]2002年在《中文版面分析的研究》文中认为版面分析作为文字识别系统的预处理部分,其准确性直接影响文字的识别率。本文针对复杂的中文版面,提出了一个基于模糊连接度和识别特征的中文版面分析方法,完成了一个图像输入、倾斜校正、版面图文分割的过程。版面图文分割主要采用自底向上的办法,利用连通域搜索算法检测出文本页面上的所有连通基元,通过对连通基元的四个方向上的连接度进行模糊化处理来决定文字行、列的合并,并对在文字行合并时影响较大的标点符号采用先识别后合并的方法。为了减少时间开销,在计算和合并过程中采用局部搜索策略。实验结果表明,该方法对印刷质量比较好的中文版面具有较理想的分割效果。

党兴[10]2010年在《复杂的中文文档图像版面分析研究》文中研究表明光学字符识别(OCR)是一种实现文字自动输入的快捷省力方法,广泛应用于网上资源数据库和数字图书馆的建设。作为OCR进入自动化阶段的首要步骤,版面分析的正确性直接影响到系统输出结果的语义关系和逻辑关系。在各种文档图像中,由于中文文档图像背景、排版的复杂使得版面分析比西文版面难度大。因此对中文版面分析的研究具有重要的理论意义和实用价值。针对现有版面分析中所涉及到的图像倾斜检测、版面分割以及纯文本版面分析等算法容易受版面复杂度影响,本文根据中文版面特点,对中文文档图像版面分析算法进行了深入研究和大量实验,并取得了如下成果:1.现有的最近邻方法进行文档图像倾斜角计算时,由于被选择的最近邻对可能是错误的,导致计算出的倾斜角与实际角度相差较大。本文提出的基于改进的最近邻链方法,根据判断相似连通区之间同行或同列,构造两类相似k最近邻链表,避免了错误的最近邻链对计算角度的干扰,提高了计算倾斜角度的精确性。2.针对传统的游程平滑算法对平滑阈值选取敏感的缺点,提出了基于选择性连通区游程平滑算法,根据区域内、区域间连通区大小、距离特性进行阈值选取,克服了传统游程平滑算法对字体大小、字符间距、图像区域的依赖性,单一背景文档图像版面分割效果得到明显改善。3.已有的复杂背景的彩色文档图像分割算法普遍存在提高运行时间与分割正确率相矛盾的缺点,本文通过改进灰度化算法和基于边缘图像的动态聚类分割方法,克服了灰度化过程时文字区域颜色信息丢失并且仅对边缘图像进行处理,在提高版面分割速度的同时不会降低版面分割正确率。4.现有阅读顺序未知的复杂纯文本图像版面分析算法对参数选取具有敏感性和弱适用性,对此提出了基于SVM区域构造的版面分析算法。算法选取种子连通区作为测试的第一特征逐步构造区域,之后用投影法决定区域内阅读顺序。实验结果表明,提出的方法具有更好的适应性,对复杂的中文版面有满意的分析结果。

参考文献:

[1]. 中文版面分析与重构研究[D]. 王宇. 河北大学. 2003

[2]. 智能阅读服务机器人系统关键技术研究[D]. 李艳. 中国海洋大学. 2008

[3]. 中文版面分析和重构[J]. 钟辉, 孙士兰, 刘倩. 沈阳建筑大学学报(自然科学版). 2008

[4]. 中文版面分析关键技术的研究[D]. 靳从. 南京理工大学. 2007

[5]. 基于非文本图像优先的中文版面分析技术研究和应用[D]. 李小锋. 北方工业大学. 2010

[6]. 复杂中文报纸的版面分析、理解和重构[J]. 陈明, 丁晓青, 梁健. 清华大学学报(自然科学版). 2001

[7]. 基于邻域特征的版面分析[D]. 李涛. 河北大学. 2004

[8]. 非文本块优先的中文版面分析[D]. 张充. 河北大学. 2004

[9]. 中文版面分析的研究[D]. 张志彬. 河北大学. 2002

[10]. 复杂的中文文档图像版面分析研究[D]. 党兴. 苏州大学. 2010

标签:;  ;  ;  ;  ;  ;  ;  

中文版面分析与重构研究
下载Doc文档

猜你喜欢