[發明專利]用于提取文檔結構的方法和裝置有效
| 申請號: | 201110438858.2 | 申請日: | 2011-12-21 |
| 公開(公告)號: | CN103176956A | 公開(公告)日: | 2013-06-26 |
| 發明(設計)人: | 董寧;徐劍波;黃文娟 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 提取 文檔 結構 方法 裝置 | ||
技術領域
本發明涉及數字排版領域,具體而言,涉及用于提取文檔結構的方法和裝置。?
背景技術
參考文獻反映了研究者的研究基礎,是前人研究成果的一種表現形式,是對前人研究成果的繼承和擴展,也是對前人研究成果的尊重。在各種文件尤其是論文中,經常會標注參考文獻。圖1示出了帶有前導詞的單欄的參考文獻信息的版面圖;圖2示出了沒有前導詞的參考文獻信息的版面圖;圖3示出了多欄的參考文獻信息的版面圖。如圖1-圖3所示,這些參考文獻信息的格式往往具有一定的規范性,因此對于版式文件的內容信息的提取可以將參考文獻信息作為結構數據進行提取,例如,圖1中的第1-4行分別一個條目,而第5-6行合并是一個條目。?
目前,對數字版式文件參考文獻的提取,主要是通過規則的方法、或機器學習的方法、或建立模板的方法對元數據進行抽取,再提取參考文獻條目。發明人發現,若用戶僅僅是為了提取參考文獻,通過抽取元數據進行的參考文獻的提取方法會造成提取效率的降低。?
發明內容
本發明旨在提供一種用于提取文檔結構的方法和裝置,以解決現有技術效率較低的問題。?
在本發明的實施例中,提供了一種用于提取文檔結構的方法,包括:確定參考文獻信息在版式文件中的位置;從版式文件的位置的版式內容中提取關于參考文獻信息的條目。?
在本發明的實施例中,還提供了一種用于提取文檔結構的裝置,包括:位置模塊,用于確定參考文獻信息在版式文件中的位置;提取模塊,用于從版式文件的位置的版式內容中提取關于參考文獻信息的條目。?
本發明上述實施例的用于提取文檔結構的方法和裝置因為直接針對版式內容提取參考文獻信息的條目,不通過抽取元數據來提取條目,所以克服了現有技術效率較低的問題,提高了處理參考文獻信息的效率。?
附圖說明
此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:?
圖1示出了帶有前導詞的單欄的參考文獻信息的版面圖;?
圖2示出了沒有前導詞的參考文獻信息的版面圖;?
圖3示出了多欄的參考文獻信息的版面圖;?
圖4示出了根據本發明實施例的用于提取文檔結構的方法的流程圖;?
圖5示出了根據本發明優選實施例的用于提取文檔結構的方法的流程圖;?
圖6示出了根據本發明優選實施例的在單欄中提取參考文獻條目的流程圖;?
圖7示出了根據本發明實施例的用于提取文檔結構的裝置的示意圖;?
圖8示出了關鍵字“參考書籍”不居中的參考文獻信息的版面圖。?
具體實施方式
下面將參考附圖并結合實施例,來詳細說明本發明。?
圖4示出了根據本發明實施例的用于提取文檔結構的方法的流程圖,包括:?
步驟S10確定參考文獻信息在版式文件中的位置;?
步驟S20,從版式文件的位置的版式內容中提取關于參考文獻信息的條目。?
本實施例的方法不通過抽取元數據,而是直接從版式內容中提取參考文獻,提高了提取參考文獻的效率。?
優選地,步驟S10包括:在版式文件的目錄中查找具有關于參考文獻信息的關鍵字的目錄項;確定目錄項所引用的頁碼;定位到頁碼所指引的電子頁面為參考文獻信息的開始頁。?
現有格式例如PDF的版式文件中往往包含目錄,在版式文件的目錄中查找諸如“參考文獻”、“參考書目”、“Reference”等預定義關鍵字,若查找到則記錄其印刷頁碼,可以再通過計算出目錄電子頁面和印刷頁碼的偏移量,從而根據參考文獻的電子頁碼在版式文件中定位到參考文獻所在的頁面。?
優選地,定位到頁碼所指引的電子頁面包括:確定目錄的電子頁面的頁碼和印刷頁碼的偏移量;定位到頁碼加偏移量的電子頁面。?
電子文件不同于紙頁文件,電子文件的目錄本身也是頁面,如果目錄共3個頁面,那么目錄中的項所標注的例如內容第5頁,實際上就是第8個頁面。本優選實施例通過目錄項與正文中提取的章節標題的匹配計算電子頁碼和印刷頁碼的偏移,即若匹配成功,則匹配成功的章節標題所在頁面的電子頁碼減去目錄條目的印刷頁碼的差值即為頁碼偏移。本優選實施例可以提高確定開始頁的準確性。?
優選地,步驟S10包括:在版式文件的頁面中查找具有關于參考文獻信息的關鍵字;確定查找到關鍵字的頁面為參考文獻信息的開始頁。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司,未經北大方正集團有限公司;北京方正阿帕比技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110438858.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:尼爾森規格管理方法及系統
- 下一篇:靜脈點滴治療車





