[發明專利]一種列表識別方法與系統有效
| 申請號: | 201310455068.4 | 申請日: | 2013-09-29 |
| 公開(公告)號: | CN104517106B | 公開(公告)日: | 2017-11-28 |
| 發明(設計)人: | 許燦輝;湯幟;徐劍波;陶欣 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/62 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司11250 | 代理人: | 寇海俠 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 列表 識別 方法 系統 | ||
1.一種列表識別方法,其特征在于,包括以下步驟:
對原始版式文檔內的元數據信息進行解析和分析,提取頁面內基本圖元;
對所述基本圖元進行分割,提取頁面內分割文本行,并得到分割片;
針對所述分割片構造出無向圖,在所述針對所述分割片構造出無向圖的過程中,利用所述分割片的鄰域關系構造無向圖;根據所述基本圖元的屬性,檢測前導符號的縮進特征,所述根據所述基本圖元的屬性,檢測前導符號的縮進特征的過程,包括檢測所述前導符號縮進級別、縮進量以及與其他前導符號縮進是否一致;
根據所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關系特征,訓練學習模型,獲得模型參數,建立列表識別模型,其中所述鄰域關系是與其周圍的分割片的鄰居關系、位置關系信息;
調用所述列表識別模型對所需的文檔進行列表識別,得到識別結果。
2.根據權利要求1所述的列表識別方法,其特征在于,所述根據所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關系特征,訓練學習模型,獲得模型參數,建立列表識別模型的過程中,所述學習模型為條件隨機場模型,過程包括:
提取所述無向圖中每個分割片的局部特征,進行分類,然后將分類得分轉化為偽概率,作為條件隨機場模型的一元特征函數;
根據無向圖鄰域關系,提取分割片之間的鄰域關系特征作為二元特征函數。
3.根據權利要求1或2所述的列表識別方法,其特征在于,所述對所述基本圖元進行分割,提取頁面內分割文本行,并得到分割片的過程中,將文本行中連續的文本分割到一個分割片中。
4.根據權利要求1所述的列表識別方法,其特征在于,所述提取頁面內分割文本行時,采用聚類方法。
5.根據權利要求1所述的列表識別方法,其特征在于,在所述構造無向圖的過程中,采用最小生成樹方法或三角剖分方法構造無向圖。
6.根據權利要求1所述的列表識別方法,其特征在于,所述分割片的局部特征包括分割片的長寬比、歸一化面積、縮進級別、圖像紋理特征。
7.根據權利要求2所述的列表識別方法,其特征在于,所述提取所述無向圖中每個分割片的局部特征,進行分類,然后將分類得分轉化為偽概率的過程,包括:通過SVM分類器進行分類,選擇RBF徑向基核函數,將分類得分轉化為偽概率。
8.根據權利要求1所述的列表識別方法,其特征在于,所述縮進特征包括前導符號縮進級別、縮進量以及與其他前導符號縮進是否一致。
9.一種列表識別系統,其特征在于,包括:
提取單元:對原始版式文檔內的元數據信息進行解析和分析,提取頁面內基本圖元;
分割單元:對所述基本圖元進行分割,提取頁面內分割文本行,并得到分割片;
構造單元:針對所述分割片構造出無向圖,所述構造單元中,根據所述分割片的鄰域關系構造無向圖;
檢測單元:根據所述基本圖元的屬性,檢測前導符號的縮進特征,所述檢測單元中,檢測所述前導符號縮進級別、縮進量以及與其他前導符號縮進是否一致;
建模單元:根據所述縮進特征、所述分割片的局部特征以及分割片之間的鄰域關系特征,訓練學習模型,獲得模型參數,建立列表識別模型,其中所述鄰域關系是與其周圍的分割片的鄰居關系、位置關系信息;
調用單元:調用所述列表識別模型對所需的文檔進行列表識別,得到識別結果。
10.根據權利要求9所述的列表識別系統,其特征在于,
所述學習模型為條件隨機場模型,所述建模單元中,包括:
第一特征提取子單元:提取所述無向圖中每個分割片的局部特征,進行分類,然后將分類得分轉化為偽概率,作為條件隨機場模型的一元特征函數;
第二特征提取子單元:根據無向圖鄰域關系,提取分割片之間的鄰域關系特征作為二元特征函數。
11.根據權利要求9或10所述的列表識別系統,其特征在于,所述分割單元中,將文本行中連續的文本分割到一個分割片中。
12.根據權利要求9所述的列表識別系統,其特征在于,所述提取頁面內分割文本行時,采用聚類方法。
13.根據權利要求9所述的列表識別系統,其特征在于,所述構造單元中,在所述構造無向圖時,采用最小生成樹方法或三角剖分方法構造無向圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司,未經北大方正集團有限公司;北京方正阿帕比技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310455068.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種二維碼圖像的二值化方法及系統
- 下一篇:一種圖像識別傳感器定位系統





