[發明專利]一種版式文件中結構化信息獲取的方法及裝置有效
| 申請號: | 201110409463.X | 申請日: | 2011-12-09 |
| 公開(公告)號: | CN103164388A | 公開(公告)日: | 2013-06-19 |
| 發明(設計)人: | 董寧;黃文娟;張保亮 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司 |
| 主分類號: | G06F17/21 | 分類號: | G06F17/21;G06F17/27 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 黃志華 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 版式 文件 結構 信息 獲取 方法 裝置 | ||
技術領域
本發明涉及信息處理技術領域,特別涉及一種版式文件中結構化信息獲取的方法及裝置。
背景技術
在對圖書版式文件的信息化管理中,需對每個圖書版式文件進行結構化,獲取每個版式文件的結構化信息以形成對應的目錄數據。而現有的已形成的圖書版式文件的目錄數據中,一般只包括每個目錄項的名稱字符以及每個目錄項的起始位置,而并不包括每個目錄項的結束位置,以及每個目錄項的名稱在文章中的具體區域。
可見,現有的圖書版式文件的結構化信息并不完整,不能根據現有的目錄數據確定每個目錄項對應的具體起始及結束位置,從而,不能單獨提供圖書版式文件的具體目錄項的版式和流式閱讀,即不能滿足多樣化閱讀的需求。
因此,在對每個圖書版式文件進行結構化的過程中,需獲取每個版式文件比較完整的結構化信息。一般通過人工對圖書版式文件進行結構化,即人工對圖書版式文件中每個目錄項的文章內容進行閱讀分析查看,然后根據查看的文章內容,從中獲取所需的結構化數據。在對大量的圖書版式文件的信息化管理時,由于人工原因的限制,例如:理解能力或體力,勢必會出現一些錯誤,并且,人工的速度也比較慢。從而,影響了結構化信息獲取的正確率以及速度。
發明內容
本發明實施例提供一種版式文件中結構化信息獲取的方法及裝置,用以提高版式文件的信息化管理中對版式文件的結構化速度。
本發明實施例提供一種版式文件中結構化信息獲取的方法,包括:
確定當前目錄項對應的起始頁碼信息;
將所述起始頁碼信息對應頁的第一文章內容,按照內容屬性信息分割成至少一個塊結構字符;
在每個塊結構字符中查找與所述當前目錄項的名稱字符匹配的第一塊結構字符,并獲取所述第一塊結構字符在所述第一文章內容中第一位置信息;
根據所述第一位置信息獲取所述當前目錄項的起始位置信息,以及上一目錄項的結束位置信息。
本發明實施例提供版式文件中結構化信息獲取的裝置,包括:
確定單元,用于確定當前目錄項對應的起始頁碼信息;
分割單元,用于將所述起始頁碼信息對應頁的第一文章內容,按照內容屬性信息分割成至少一個塊結構字符;
匹配單元,用于在每個塊結構字符中查找與所述當前目錄項的名稱字符匹配的第一塊結構字符,并獲取所述第一塊結構字符在所述第一文章內容中第一位置信息;
獲取單元,用于根據所述第一位置信息獲取所述當前目錄項的起始位置信息,以及上一目錄項的結束位置信息。
本發明實施例中,將起始頁碼信息對應頁的第一文章內容分割成至少一個塊結構字符,并從中查找與當前目錄項的名稱字符匹配的第一塊結構字符,并獲取第一塊結構字符在所述第一文章內容中第一位置信息,然后,根據第一位置信息確定當前目錄項的起始位置信息,以及上一目錄項的結束位置信息,這樣,只需對特定頁的文章內容進行分析和匹配,就可獲取到版式文件的結構化信息,從而,加快了對版式文件的結構化速度。
附圖說明
圖1為本發明實施例中版式文件中結構化信息獲取的流程圖;
圖2為本發明實施例中匹配查找的流程圖;
圖3為本發明實施例中版式文件的目錄數據信息的示意圖;
圖4為本發明實施例中版式文件的目錄數據信息更新后的示意圖;
圖5為本發明實施例中結構化的版式文件數據信息的示意圖;
圖6為本發明實施例中版式文件中結構化信息獲取的裝置的結構圖。
具體實施方式
本發明實施例中,對特定頁的文章內容進行分析和匹配,就可獲取到版式文件的結構化信息,從而,加快了對版式文件的結構化速度。
參見圖1,本發明實施例中版式文件中結構化信息獲取的過程包括:
步驟101:確定當前目錄項對應的起始頁碼信息。
在對版式文件的信息化管理中,已經加載了版式文件的目錄數據信息。其中,目錄數據信息包括:目錄項的層次關系,目錄項的名稱字符,目錄項對應起始頁碼。該目錄數據信息可已XML文件格式進行描述,或者其他的自定義的TXT文件格式,或EXCEL文件格式進行描述。
這樣,將需單獨提供版式和流式閱讀的具體目錄項確定為當前目錄項,或者,將目錄數據信息中任意一個目錄項確定為當前目錄項,并從中查找到該當前目錄項對應的起始頁碼。
本發明實施例中,為提高結構化信息獲取的正確率,可在確定當前目錄項對應的起始頁碼之前,分析加載的版式文件的目錄數據信息的有效性,如:目錄的層次關系,以及個目錄項的起始頁碼的有效性等等。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司,未經北大方正集團有限公司;北京方正阿帕比技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110409463.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于人工電磁材料設計的數據庫處理方法
- 下一篇:位移測量裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





