[發(fā)明專利]用于生成圖文結構化信息的方法和裝置在審
| 申請?zhí)枺?/td> | 201911296540.8 | 申請日: | 2019-12-16 |
| 公開(公告)號: | CN111046096A | 公開(公告)日: | 2020-04-21 |
| 發(fā)明(設計)人: | 田英愛;王長勝;李寧;施運梅;李海波;陳亞軍 | 申請(專利權)人: | 北京信息科技大學;王長勝 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F40/189 |
| 代理公司: | 北京衛(wèi)智暢科專利代理事務所(普通合伙) 11557 | 代理人: | 陳佳 |
| 地址: | 100085 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 生成 圖文 結構 信息 方法 裝置 | ||
1.一種用于生成圖文結構化信息的方法,包括:
對待處理的圖文混排的版式文檔的段落進行識別,得到段落信息,其中,所述段落信息包括用于表征所述段落所在范圍的段落外接邊框信息;
根據(jù)所述段落外接邊框信息,確定所述段落內的版式圖文要素信息;
對所述版式圖文要素信息進行圖元類別信息讀取、判定并標記,得到版式圖文信息;
根據(jù)預設的所述版式圖文信息的閱讀順序,進行分析、拆分、重排圖元對象,得到圖文信息;
將所述圖文信息映射成圖文結構化信息。
2.根據(jù)權利要求1所述的方法,其中,所述根據(jù)所述段落外接邊框信息,確定所述段落內的版式圖文要素信息,包括:
根據(jù)所述段落外接邊框信息,識別段落外接邊框范圍內的圖元信息和圖元所在版式頁面的版式頁面塊信息,形成圖元信息列表和版式頁面塊信息列表,其中,所述圖元信息至少包括圖元類別信息、圖元標識信息以及是否跨頁信息,所述版式頁面塊信息至少包括版式頁面排版邊框的標識信息,并與所述圖元信息列表相關聯(lián)。
3.根據(jù)權利要求2所述的方法,其中,所述對所述版式圖文要素信息進行圖元類別信息讀取、判定并標記,得到版式圖文信息,包括:
分析所述段落內的版式頁面塊中的圖元信息列表中對應的圖元類別;
響應于所述版式頁面塊中同時存在文本圖元和其它類型圖元,則標記分析結果為0;
響應于所述版式頁面塊中只存在某一種相同類型圖元,則標記分析結果為1;
響應于所述版式頁面塊中存在其它情形,則標記分析結果為2。
4.根據(jù)權利要求3所述的方法,其中,所述根據(jù)預設的所述版式圖文信息的閱讀順序,進行分析、拆分、重排圖元對象,得到圖文信息,包括:
基于預設閱讀方向,對所述段落內的行進行行高分析;
確定所述行中的文本圖元對象對應的縱坐標值偏差是否大于預設偏差值;
響應于確定大于所述預設偏差值,依據(jù)行高將所述段落拆分為多個獨立文本圖元數(shù)據(jù);
依據(jù)各個文本圖元數(shù)據(jù)的行內橫坐標確定各個文本圖元的閱讀順序;
若所述各個文本圖元數(shù)據(jù)內行的橫坐標范圍內圖元對象與所述文本圖元對象不同,則進一步拆分所述文本圖元數(shù)據(jù)的文本圖元,以得到圖元信息順序列表;
重新調整所述圖元信息順序列表中圖元所在的版式頁面塊的閱讀順序。
5.根據(jù)權利要求4所述的方法,其中,所述將所述圖文信息映射成圖文結構化信息,包括:
初始化結構化版式文檔的根節(jié)點,以及生成對應的結構化圖文段落節(jié)點;
在所述根節(jié)點下增加所述結構化圖文段落節(jié)點,以及在所述結構化圖文段落節(jié)點下增加段落片段節(jié)點,以及將待處理的開始頁碼映射到所述段落片段節(jié)點;
依據(jù)所排序完成的圖元信息順序列表,依次將所述圖元信息順序列表中的圖元映射到對應的段落片段節(jié)點,至此圖文結構化信息映射完畢。
6.根據(jù)權利要求1-5之一所述的方法,其中,所述依據(jù)所排序完成的圖元信息順序列表,依次將所述圖元信息順序列表中的圖元映射到對應的段落片段節(jié)點,包括:
響應于第一個圖元是跨頁的,則新建段落片段節(jié)點,以及將所跨頁的跨頁碼映射到所述新建段落片段節(jié)點;
依次映射所述圖元信息順序列表中的圖元到對應的結構化段落片段節(jié)點下的塊節(jié)點,以及增加對應圖元類別;
若圖元類別為非文本類別的,則增加所述圖元類別所對應的圖元的文字繞排屬性,關聯(lián)所述圖元類別所對應的圖元對象。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學;王長勝,未經北京信息科技大學;王長勝許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911296540.8/1.html,轉載請聲明來源鉆瓜專利網。





