[發(fā)明專利]一種版面信息識別的方法及裝置有效
| 申請?zhí)枺?/td> | 201010193898.0 | 申請日: | 2010-05-28 |
| 公開(公告)號: | CN102262618A | 公開(公告)日: | 2011-11-30 |
| 發(fā)明(設(shè)計)人: | 高良才;湯幟;房婧;仇睿恒 | 申請(專利權(quán))人: | 北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正技術(shù)研究院有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27 |
| 代理公司: | 北京天昊聯(lián)合知識產(chǎn)權(quán)代理有限公司 11112 | 代理人: | 陳源;羅建民 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 版面 信息 識別 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)字文檔處理技術(shù)領(lǐng)域,尤其涉及數(shù)字文檔中版面信息的識別,其中,包括圖注的識別、圖像與圖注的關(guān)聯(lián)關(guān)系的識別和利用識別的圖像與圖注的關(guān)聯(lián)關(guān)系來改進(jìn)閱讀順序的識別效果。
背景技術(shù)
近年來,數(shù)字文檔結(jié)構(gòu)抽取技術(shù)已成為數(shù)字文檔分析與理解領(lǐng)域的研究熱點(diǎn),它包含布局結(jié)構(gòu)抽取和邏輯結(jié)構(gòu)抽取兩方面。其中,布局結(jié)構(gòu)抽取主要目的是將文檔版面劃分成塊,一般用樹狀結(jié)構(gòu)來表示塊之間的布局關(guān)系,該方向的研究已較為成熟;而現(xiàn)有的邏輯結(jié)構(gòu)抽取技術(shù)主要限于將布局分析得到的分塊賦予不同的邏輯含義,例如章節(jié)、標(biāo)題、段落、作者及單位、腳注、圖表、頁碼等,從而得到邏輯部件。
但是,對于邏輯部件之間的關(guān)系,例如,圖像與圖注的關(guān)聯(lián)關(guān)系、版面閱讀順序識別等,研究相對較少。而邏輯部件之間的關(guān)系對于版面信息的正確識別具有重要的意義,比如,圖像與圖注的關(guān)聯(lián)關(guān)系的識別,不但能夠用于提高版面閱讀順序的識別效果,而且對于圖像檢索等研究也有重要意義。
當(dāng)前的圖像與圖注的關(guān)聯(lián)識別研究,主要采用距離靠近原則,并且多依賴圖注通常位于圖像正上方或正下方并且居中的特征,選取距離圖像最近的圖注為其標(biāo)題,例如可參見“Logical?StructureAnalysis?of?Book?Document?Images?Using?Contents?Information”,Proceedings?of?International?Conference?on?Document?Analysisand?Recognition,1997。這種方法的缺點(diǎn)在于,當(dāng)頁面上含有多個圖像時,特別是隨著數(shù)字文檔版面布局的多樣化,圖像與圖注的空間布局變得越來越復(fù)雜,按照距離靠近原則選取圖像的圖注容易導(dǎo)致匹配錯亂,也就是說,僅靠單個圖像與圖注的距離和樣式,很難正確地確定復(fù)雜版面中多個圖像與圖注的關(guān)聯(lián)關(guān)系。
發(fā)明內(nèi)容
為了解決以上問題,本發(fā)明提供一種版面信息識別的方法及裝置,其中,包括圖注的識別、圖像與圖注的關(guān)聯(lián)關(guān)系的識別和利用識別的圖像與圖注的關(guān)聯(lián)關(guān)系來改進(jìn)閱讀順序的識別效果。通過這種方法,可正確地識別復(fù)雜版面中邏輯元素圖注以及圖像與圖注的關(guān)聯(lián)關(guān)系,并可利用識別出來的圖像與圖注的關(guān)聯(lián)關(guān)系來改進(jìn)復(fù)雜版面中閱讀順序的識別效果。
為了實(shí)現(xiàn)以上目的,本發(fā)明提供一種識別圖注的方法,包括以下步驟:讀取待識別版面,分離該版面中的字符文本對象與圖像對象,并將字符文本對象合并成文本塊,將圖像對象保留為圖像塊;從合并的文本塊中識別出圖注文本塊。其中,根據(jù)文檔布局結(jié)構(gòu)分析方法和/或根據(jù)數(shù)字文檔中的數(shù)據(jù)對象類型來分離字符文本對象與圖像對象;根據(jù)以下中的至少一種來識別圖注文本塊:文本塊的字體屬性、文本塊與圖像塊的距離、文本塊的字?jǐn)?shù)、文本塊是否符合圖注的表現(xiàn)形式。
本發(fā)明提供一種識別圖像和圖注的關(guān)聯(lián)關(guān)系的方法,包括以下步驟:利用上述識別圖注的方法來識別圖注文本塊和圖像塊;利用優(yōu)化方法對圖像塊和圖注文本塊進(jìn)行最優(yōu)匹配,從而獲得相關(guān)聯(lián)的圖像塊與圖注文本塊。其中,優(yōu)選地,利用優(yōu)化方法使實(shí)現(xiàn)最優(yōu)匹配的圖像塊和圖注文本塊之間的距離之和最小,更優(yōu)選地,可采用二分圖最優(yōu)匹配方法來匹配圖像塊與圖注文本塊。
本發(fā)明提供一種改進(jìn)版面閱讀順序的識別效果的方法,包括以下步驟:利用上述識別圖像與圖注的關(guān)聯(lián)關(guān)系的方法來識別圖像塊與圖注文本塊之間的匹配關(guān)系;從版面的文本塊中去掉圖注文本塊,并識別其余文本塊和圖像塊的閱讀順序;在閱讀順序中將圖注文本塊插回到相匹配的圖像塊之后。
為了實(shí)現(xiàn)以上方法,本發(fā)明提供一種版面信息識別裝置,包括:讀取單元、圖注識別單元、匹配單元、閱讀順序改進(jìn)單元和輸出單元,其中,輸出單元可根據(jù)實(shí)際需要分別輸出閱讀順序、圖像塊與圖注文本塊的關(guān)聯(lián)關(guān)系、識別的圖注文本塊、按照識別的閱讀順序排列的文本塊和圖像塊。這些單元的具體操作與上述方法中的相應(yīng)步驟相同。
本發(fā)明將版面上的全部圖像和圖注綜合考慮,通過最優(yōu)匹配方法獲得圖像與圖注的全局最優(yōu)匹配,不受圖像與圖注數(shù)目以及它們之間空間樣式的限制,能夠從全局上找到最優(yōu)的關(guān)聯(lián)關(guān)系。同時,通過圖像與圖注的全局最優(yōu)匹配,能夠很大程度上改進(jìn)現(xiàn)有的版面閱讀順序識別效果。
附圖說明
圖1是根據(jù)本發(fā)明構(gòu)造的帶權(quán)二分圖構(gòu)造的示意圖;
圖2是根據(jù)本發(fā)明的版面信息識別裝置的示意性框圖;
圖3是第一實(shí)施例中的示意性頁面;
圖4是第一實(shí)施例中的識別方法的流程圖;
圖5是第一實(shí)施例中圖注識別方法的流程圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正技術(shù)研究院有限公司,未經(jīng)北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正技術(shù)研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010193898.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





