[發明專利]一種文檔邏輯結構重建方法有效
| 申請號: | 201611034443.8 | 申請日: | 2016-11-23 |
| 公開(公告)號: | CN106776495B | 公開(公告)日: | 2020-06-09 |
| 發明(設計)人: | 侯霞;李寧;趙雪;楊鴻波 | 申請(專利權)人: | 北京信息科技大學 |
| 主分類號: | G06F40/151 | 分類號: | G06F40/151;G06F40/103 |
| 代理公司: | 北京遠創理想知識產權代理事務所(普通合伙) 11513 | 代理人: | 衛安樂 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 邏輯 結構 重建 方法 | ||
本發明實施例提供一種文檔邏輯結構重建方法,包括:步驟1、提取源文檔的分段,并識別出每一段落的類型;具體包括:步驟11、獲取每一段落的特征向量M=[m1 m2...mn];其中向量M具有n個分量:m1、m2……mn;其中每個分量表示一種格式信息,所述格式信息為以下的至少一種:字體大小、字型、大綱級別、行距、是否加黑、是否粗體、是否斜體;步驟12、利用預設的向量模板集合,對所述每一段落的向量進行匹配,以確定每一段落的角色;其中預設的向量模板集合中包含多個預定義的向量,且每一向量對應一種特定的角色類型;步驟2、根據源文檔的每一段落的角色類型,構建出源文檔的邏輯模型。
技術領域
本發明涉及信息技術領域,尤其是指一種文檔邏輯結構重建方法。
背景技術
隨著信息技術的發展,越來越多的數據采用電子形式存儲,其中最常見的文檔存儲形式就是OOXML的字處理文檔。本發明實施例中所稱的“word文檔”其不僅是指Microsoft公司推出的office軟件中的word軟件產生的文檔,還包括一切采用與word軟件兼容、相同、相似格式的文檔格式。
Word格式的文檔,其底層雖然是由開放的文檔格式OOXML形式存儲的,但是其中描述了復雜的與顯現相關的文檔格式信息,而內容只是文檔格式的一部分。由于內容在存儲時沒有任何語義信息,因此非常不利于自動化的信息處理。如果對文檔內容的章節邏輯結構進行重構,將word文檔轉化為帶有語義信息的數據,則可以提高文檔處理的自動化程度,使文檔處理更快速、更便捷。
Word格式的文檔,其底層是采用OOXML形式存儲的,且文檔中的各級章節標題和正文在OOXML文檔中都是以段落元素w:p存儲的,只是段落的格式屬性描述不同。例如,圖1中給出了一個段示例性的word文檔,包括一級章節標題“2系統方案”和一段正文“本文提出一種能夠支持公式編輯的在線編輯器的實現方案?!保鋵腛OXML代碼分別如圖2a和圖2b所示。
圖2a示出了一級標題“2系統方案”在w:p標簽中,w:p標簽下包含屬性標簽w:pPr說明其引用a3樣式。圖2b示出了一級標題下的正文“本文提出一種能夠支持公式編輯的在線編輯器的實現方案?!蓖瑯哟鎯υ趙:p標簽中,其屬性標簽w:rPr說明其引用aff8樣式和首行縮進的值。這兩個w:p標簽在OOXML中是并列存儲的,相互之間沒有邏輯關系。雖然這種格式顯現上的差別,可以使人非常輕易的理解,但是系統則無法進行自動化處理;即系統無法區分出哪一部分是標題哪一部分是正文。另外,段落在OOXML中是順序存儲的,章節標題和內容并沒有邏輯上的包含關系。因此,自動化地識別word文檔的章節邏輯結構對于后期文檔信息處理、挖掘和利用是非常有用的。
發明內容
針對現有技術中存在的word格式的文檔中的章節標題和正文無法被系統自動識別的問題,本發明實施例要解決的技術問題是提出一種能夠幫助系統識別的文檔邏輯結構重建方法。
為了解決上述問題,本發明實施例提出了一種文檔邏輯結構重建方法,包括:
步驟1、針對源文檔進行分段,并識別出每一段落的角色類型;具體包括:
步驟11、獲取每一段落的特征向量M=[m1 m2 ... mn];其中每一段落的特征向量M具有n個分量:m1、m2……mn;其中每個分量表示一種格式信息,所述格式信息為以下的至少一種:字體大小、字型、大綱級別、行距、是否加黑、是否粗體、是否斜體;
步驟12、利用預設的向量模板集合,對所述每一段落的向量進行匹配,以確定每一段落的角色;其中預設的向量模板集合中包含多個預定義的向量,且每一向量對應一種特定的角色類型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611034443.8/2.html,轉載請聲明來源鉆瓜專利網。





