[發明專利]一種列表識別方法與系統有效
| 申請號: | 201310455068.4 | 申請日: | 2013-09-29 |
| 公開(公告)號: | CN104517106B | 公開(公告)日: | 2017-11-28 |
| 發明(設計)人: | 許燦輝;湯幟;徐劍波;陶欣 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/62 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司11250 | 代理人: | 寇海俠 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 列表 識別 方法 系統 | ||
技術領域
本發明涉及電子文檔格式轉換技術領域,具體地說是一種列表識別方法與系統。
背景技術
根據版式文檔的生成過程,文檔是數據和結構的集合,具體包括內容數據、物理結構和邏輯結構。文檔分析是對文檔物理結構進行抽取,而文檔理解則是在物理結構和邏輯結構之間建立映射關系。在實際應用中,移動設備的可讀性需求使物理和邏輯結構的恢復尤為重要。頁面內列表的檢測及識別是文檔理解的重點之一。列表具有其獨立的邏輯功能,需要對其進行物理劃分和邏輯標簽標定。但列表從視覺上與正文文本段的特征十分近似,且列表首行的前導符號變化多樣,列表續行不具備明顯的可區分性特征,根據規則的方法其識別效果不能滿足實際需求。
列表是文檔的重要組成部分,如何準確地識別列表及其列表中的內容,對版式文檔的分析尤其重要。現有技術中有一些識別并轉換版式文檔中列表的方法,如使用一組規則來檢測基于矢量圖形的文檔中的至少一個列表。模式檢測邏輯標識可能開始列表的各字符、符號、數字、字母和/或圖像。另外的模式檢測邏輯確定列表是否存在。該系統可以標識和分析標項目符號的列表、標號的或標字母的列表、以及作為兩者的任意組合的嵌套列表。該方案的不足在于沒有考慮列表的鄰域信息,鄰域信息包括文本模式、縮進基本、標點、對齊等特征,當文檔頁面中存在多個列表時,該方案不能識別列表續行和列表首行的上下文關系,文檔整體的識別效果不理想。
發明內容
為此,為此,本發明所要解決的技術問題在于現有技術中的列表識別方法不能識別列表續行和列表首行的上下文關系,從而提出一種可以識別列表首行和續行的基于概率圖模型的列表識別方法。
為解決上述技術問題,本發明的提供一種列表識別方法與系統。
一種列表識別方法,包括以下步驟:
對原始版式文檔內的元數據信息進行解析和分析,提取頁面內基本圖元;
對所述基本圖元進行分割,提取頁面內分割文本行,并得到分割片;
針對所述分割片構造出無向圖;
根據所述基本圖元的屬性,檢測前導符號的縮進特征;
根據所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關系特征,訓練學習模型,獲得模型參數,建立列表識別模型;
調用所述列表識別模型對所需的文檔進行列表識別,得到識別結果。
所述的列表識別方法,所述根據所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關系特征,訓練學習模型,獲得模型參數,建立列表識別模型的過程中,所述學習模型為條件隨機場模型,過程包括:
提取所述無向圖中每個分割片的局部特征,進行分類,然后將分類得分轉化為偽概率,作為條件隨機場模型的一元特征函數;
根據無向圖鄰域關系,提取分割片之間的鄰域關系特征作為二元特征函數。
所述的列表識別方法,所述對所述基本圖元進行分割,提取頁面內分割文本行,并得到分割片的過程中,將文本行中連續的文本分割到一個分割片中。
所述的列表識別方法,所述提取頁面內分割文本行時,采用聚類方法。
所述的列表識別方法,在所述針對所述分割片構造出無向圖的過程中,根據所述分割片的鄰域關系構造無向圖。
所述的列表識別方法,在所述構造無向圖的過程中,采用最小生成樹方法構造無向圖。
所述的列表識別方法,所述根據所述基本圖元的屬性,檢測前導符號的縮進特征的過程,包括檢測所述前導符號縮進級別、縮進量以及與其他前導符號縮進是否一致。
所述的列表識別方法,所述分割片的局部特征包括分割片的長寬比、歸一化面積、縮進級別、圖像紋理特征。
所述的列表識別方法,所述提取所述無向圖中每個分割片的局部特征,進行分類,然后將分類得分轉化為偽概率的過程,包括:通過SVM分類器進行分類,選擇RBF徑向基核函數,將分類得分轉化為偽概率。
所述的列表識別方法,所述縮進特征包括前導符號縮進級別、縮進量以及與其他前導符號縮進是否一致。
一種列表識別系統,包括:
提取單元:對原始版式文檔內的元數據信息進行解析和分析,提取頁面內基本圖元;
分割單元:對所述基本圖元進行分割,提取頁面內分割文本行,并得到分割片;
構造單元:針對所述分割片構造出無向圖;
檢測單元:根據所述基本圖元的屬性,檢測前導符號的縮進特征;
建模單元:根據所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關系特征,訓練學習模型,獲得模型參數,建立列表識別模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司,未經北大方正集團有限公司;北京方正阿帕比技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310455068.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種二維碼圖像的二值化方法及系統
- 下一篇:一種圖像識別傳感器定位系統





