[發明專利]一種版面分析方法及系統有效
| 申請號: | 201310452440.6 | 申請日: | 2013-09-27 |
| 公開(公告)號: | CN104516891B | 公開(公告)日: | 2018-05-01 |
| 發明(設計)人: | 張軍;董寧;王長勝 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司11250 | 代理人: | 寇海俠 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 版面 分析 方法 系統 | ||
1.一種版面分析方法,其特征在于,包括如下過程:
獲取版式文檔的邏輯段落信息,每個段落的邏輯參考信息包括按照邏輯順序排列的字符對象、動態區域對象、靜態區域對象,并獲取當前頁面基本圖元數據作為待分析基本圖元數據;
針對靜態區域對象進行圖元收集,針對字符對象通過字符分析、成行分析、成段分析、段落結果篩選后進行圖元收集,針對動態區域對象進行圖元收集,完成待分析基本圖元數據的圖元收集;
所述針對字符對象通過字符分析、成行分析、成段分析、段落結果篩選后進行圖元收集,針對動態區域對象進行圖元收集,完成待分析基本圖元數據的圖元收集的過程,通過邏輯段落的分析完成,其中對每個邏輯段落進行邏輯分析的具體過程包括:字符分析過程包括:過濾當前頁面內的全部字符基本圖元,只保留與當前邏輯段落中字符編碼相同的字符基本圖元作為備選字符基本圖元;邏輯連接邊生成過程包括:根據當前邏輯段落中兩兩字符的邏輯次序關系,將備選字符基本圖元中分別與當前邏輯段落中的兩個相連字符相同的基本圖元全部連接,生成邏輯連接邊;成行分析過程包括:對邏輯連接邊進行過濾和聚類分析,獲得邏輯段落內的最終行單元信息;成段分析過程包括:對全部最終行單元按照版面物理位置關系以及行邏輯文本字符串與目標邏輯段落邏輯文本字符串的匹配程度進行聚類分析,對被聚集到同一個類中的最終行單元進行合并,并做行版面分析排序,生成一個段落單元;段落結果篩選過程包括:將分析得到的全部備選段落單元與目標邏輯段落進行準確匹配與非準確匹配,獲得命中段落單元。
2.根據權利要求1所述的版面分析方法,其特征在于所述靜態區域對象包含該區域在版式文檔中對應的絕對位置與寬高的參考信息,動態區域對象只包含該區域的寬高參考信息。
3.根據權利要求1或2所述的版面分析方法,其特征在于,所述當前頁面基本圖元數據通過版式文檔引擎獲得,包括字符基本圖元、圖像基本圖元、圖形基本圖元。
4.根據權利要求1所述的版面分析方法,其特征在于,針對靜態區域對象進行圖元收集的過程,包括:進行靜態區域對象圖元收集,并將歸屬于靜態區域對象的基本圖元數據從待分析基本圖元數據中移除。
5.根據權利要求4所述的版面分析方法,其特征在于,在所述邏輯段落分析的過程中,首先確定每個邏輯段落的分析次序,然后對每個邏輯段落進行邏輯分析。
6.根據權利要求5所述的版面分析方法,其特征在于,對每個邏輯段落進行邏輯分析的過程如下:首先進行字符分析并建立邏輯連接邊,然后針對邏輯連接邊進行成行分析和成段分析,通過匹配獲得命中段落,并收集動態區域對象圖元。
7.根據權利要求1所述的版面分析方法,其特征在于,所述對每個邏輯段落進行邏輯分析的具體過程還包括:
動態區域對象圖元收集過程:對段落中的每一個動態區域對象,從命中段落單元取出其前后的字符基本圖元,并使用前后的字符基本圖元包圍矩形之間的空白范圍內,按照正常版面規則及動態區域對象寬高信息推測出一個絕對位置的收集區域,并在該區域中收集動態區域對象的組成基本圖元;
移除過程:當前邏輯段落分析完成,將當前邏輯段落收集的基本圖元從當前頁面待分析基本圖元數據中移除,按照邏輯段落的分析次序分析下一邏輯段落。
8.根據權利要求5所述的版面分析方法,其特征在于:確定每個邏輯段落的分析次序時,判斷的標準依次為:①段落內字符數量,字符數量多則分析次序靠前;②段落的跨頁類型,正常段分析次序優先于跨頁段;③段落的自然邏輯次序。
9.根據權利要求7所述的版面分析方法,其特征在于:在所述邏輯連接邊生成過程,將備選字符基本圖元中分別與當前邏輯段落中的兩個相連字符相同的基本圖元全部連接時,邏輯連接邊連接兩個字符基本圖元的包圍矩形的中心。
10.根據權利要求7所述的版面分析方法,其特征在于:所述邏輯連接邊的信息包括連接邊的水平夾角、規格化長度、被連接字符基本圖元的字體大小比例。
11.根據權利要求7所述的版面分析方法,其特征在于:在所述邏輯連接邊生成過程中,當邏輯連接邊兩端的字符在邏輯段落中被動態區域對象或靜態區域對象隔開時,這種邏輯連接邊被標識為跨區域對象邏輯連接邊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司,未經北大方正集團有限公司;北京方正阿帕比技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310452440.6/1.html,轉載請聲明來源鉆瓜專利網。





