[發明專利]用于生成圖文結構化信息的方法和裝置在審
| 申請號: | 201911296540.8 | 申請日: | 2019-12-16 |
| 公開(公告)號: | CN111046096A | 公開(公告)日: | 2020-04-21 |
| 發明(設計)人: | 田英愛;王長勝;李寧;施運梅;李海波;陳亞軍 | 申請(專利權)人: | 北京信息科技大學;王長勝 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F40/189 |
| 代理公司: | 北京衛智暢科專利代理事務所(普通合伙) 11557 | 代理人: | 陳佳 |
| 地址: | 100085 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 生成 圖文 結構 信息 方法 裝置 | ||
本公開的實施例公開了用于生成圖文結構化信息的方法和裝置。該方法的一具體實施方式包括:對待處理的圖文混排的版式文檔的段落進行識別,得到段落信息,其中,上述段落信息包括用于表征上述段落所在范圍的段落外接邊框信息;根據上述段落外接邊框信息,確定上述段落內的版式圖文要素信息;對上述版式圖文要素信息進行圖元類別信息讀取、判定并標記,得到版式圖文信息;根據預設的上述版式圖文信息的閱讀順序,進行分析、拆分、重排圖元對象,得到圖文信息;將上述圖文信息映射成圖文結構化信息。該實施方式實現了圖文結構化信息準確生成,進而增強了文檔在不同設備上顯示的自適應性。
技術領域
本公開的實施例涉及計算機技術領域,具體涉及用于生成圖文結構化信息的方法和裝置。
背景技術
數字出版物,常見為電子書,可以在電腦、手機、大型號立柜式的觸摸屏、電紙書等數字閱讀設備上呈現。當前數字出版資源加工的輸入多是專業排版軟件的中間產物,如PDF等純版式文檔。
但是由于不包含流式的圖文結構化信息,或者經過自動化的智能版面識別后得到的流式的圖文結構化信息質量較差,無法準確的生成圖文結構化信息。因而在不同尺寸屏幕的設備之間的自適應性閱讀效果差,無法完全滿足“一次出版,多平臺應用,多途徑傳播”的目標。
而從版式文檔提取正確的流式信息則不盡人意,原因很多,主要體現在版式文檔版面的復雜性。圖4-14給出了各種類型的圖文混排版式文檔段落以及對應的圖文結構化信息所呈現出來的效果,版面的不規整將影響閱讀體驗。
發明內容
本公開的內容部分用于以簡要的形式介紹技術方案,這些技術方案將在后面的具體實施方式部分被詳細描述。本公開的內容部分并不旨在表示要求保護的技術方案的關鍵特征或必要特征,也不旨在用于限制所要求的保護的技術方案的范圍。
本公開的一些實施例提出了用于生成圖文結構化信息的方法和裝置,來解決以上背景技術部分提到的技術問題。
第一方面,本公開的一些實施例提供了一種用于生成圖文結構化信息的方法,該方法包括:對待處理的圖文混排的版式文檔的段落進行識別,得到段落信息,其中,上述段落信息包括用于表征上述段落所在范圍的段落外接邊框信息;根據上述段落外接邊框信息,確定上述段落內的版式圖文要素信息;對上述版式圖文要素信息進行圖元類別信息讀取、判定并標記,得到版式圖文信息;根據預設的上述版式圖文信息的閱讀順序,進行分析、拆分、重排圖元對象,得到圖文信息;將上述圖文信息映射成圖文結構化信息。
在一些實施例中,上述根據上述段落外接邊框信息,確定上述段落內的版式圖文要素信息,包括:根據上述段落外接邊框信息,識別段落外接邊框范圍內的圖元信息和圖元所在版式頁面的版式頁面塊信息,形成圖元信息列表和版式頁面塊信息列表,其中,上述圖元信息至少包括圖元類別信息、圖元標識信息以及是否跨頁信息,上述版式頁面塊信息至少包括版式頁面排版邊框的標識信息,并與上述圖元信息列表相關聯。
在一些實施例中,上述對上述版式圖文要素信息進行圖元類別信息讀取、判定并標記,得到版式圖文信息,包括:分析上述段落內的版式頁面塊中的圖元信息列表中對應的圖元類別;響應于上述版式頁面塊中同時存在文本圖元和其它類型圖元,則標記分析結果為0;響應于上述版式頁面塊中只存在某一種相同類型圖元,則標記分析結果為1;響應于上述版式頁面塊中存在其它情形,則標記分析結果為2。
在一些實施例中,上述根據預設的上述版式圖文信息的閱讀順序,進行分析、拆分、重排圖元對象,得到圖文信息,包括:基于預設閱讀方向,對上述段落內的行進行行高分析;確定上述行中的文本圖元對象對應的縱坐標值偏差是否大于預設偏差值;響應于確定大于上述預設偏差值,依據行高將上述段落拆分為多個獨立文本圖元數據,依據各個文本圖元數據的行內橫坐標確定各個文本圖元的閱讀順序,以及若上述各個文本圖元數據內行的橫坐標范圍內圖元對象與上述文本圖元對象不同,則進一步拆分上述文本圖元數據的文本圖元,以得到圖元信息順序列表;重新調整上述圖元信息順序列表中圖元所在的版式頁面塊的閱讀順序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學;王長勝,未經北京信息科技大學;王長勝許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911296540.8/2.html,轉載請聲明來源鉆瓜專利網。





