[發明專利]一種文檔結構的分析方法和裝置在審
| 申請號: | 201610233947.6 | 申請日: | 2016-04-16 |
| 公開(公告)號: | CN107301180A | 公開(公告)日: | 2017-10-27 |
| 發明(設計)人: | 謝德意 | 申請(專利權)人: | 深圳市唯德科創信息有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518109 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 結構 分析 方法 裝置 | ||
技術領域
本發明涉及文檔數據分析領域,特別涉及一種文檔結構的分析方法和裝置。
背景技術
一般而言,各種類型的文檔都有著自己特定的專有格式,例如,發明專利文檔,通常包括有說明書摘要、摘要附圖、權利要求書、說明書以及說明書附圖這五部分。用戶閱讀專利文檔采用的多為PDF或者Word等格式進行閱讀,由于這些文檔沒有對應于說明書、權利要求書、附圖等內容進行標簽分類,用戶在查閱這些專利文檔時需要單頁瀏覽,因此,當需要查閱大量專利文檔時或者查閱具有數百頁的專利文檔時,用戶必將浪費大量時間及精力去閱讀,與之同理,閱讀其他類型的文檔也會出現上述問題,給用戶閱覽文檔帶來很大的不便。
發明內容
鑒于以上內容,有必要提供一種文檔結構的分析方法和裝置,能夠獲取文檔的特定文字和格式并創建出相應地文檔結構,方便用戶根據文檔結構精準快速地查閱文檔內容。
為解決上述技術問題,本發明采用的一種技術方案是:提供一種文檔結構的分析方法,該方法包括如下步驟:
讀取文檔全文;
從所述文檔全文中查找所有有效屬性,并將每一所述有效屬性在所述文檔的對應位置處創建標簽;
提取所有標簽并創建成結構樹。
其中,所述讀取文檔全文的步驟之前還包括:定義預設屬性。
其中,所述從所述文檔全文中查找所述有效屬性,并將每一所述有效屬性在所述文檔的對應位置處創建標簽的步驟包括:
根據所述文檔全文的順序依次讀取關鍵屬性;
將讀取的所述關鍵屬性與所述預設屬性相互匹配;
若讀取的所述關鍵屬性與所述預設屬性相匹配,則判斷所述關鍵屬性為有效屬性,若讀取的所述關鍵屬性為無效屬性,則繼續讀取所述文檔中的下一關鍵屬性;及
若讀取的所述關鍵屬性為有效屬性,則將所述有效屬性在所述文檔對應的位置處創建標簽,并繼續讀取所述文檔的下一關鍵屬性,直至整個文檔讀取完畢。
其中,所述關鍵屬性包括字體樣式、段落樣式、文字屬性、標題級別或特殊文字中的一種或多種。
其中,若讀取的所述關鍵屬性與下列所述預設屬性中任意一項相匹配,則判斷所述關鍵屬性為有效屬性:所述預設屬性包括 “說明書摘要”、“摘要附圖”、“權利要求書”、“說明書”以及“說明書附圖”的標題,其中,所述“說明書”包括 “技術領域”、“背景技術”、“發明內容”、“附圖說明”及“具體實施方式”的特殊文字。
其中,所述提取所有標簽并創建成結構樹的步驟包括:
根據每一所述標簽在所述文檔中的位置依次讀取每個所述標簽;
依據每一所述標簽之間的邏輯層次關系建立邏輯結構樹。
其中,所述預設屬性包括文檔規則庫,所述文檔規則庫包括但不限于專利撰寫法規、撰寫常用邏輯規則及自定義規則;若讀取的所述關鍵屬性與所述預設屬性的所述文檔規則庫相匹配,若讀取的所述關鍵屬性與所述文檔規則庫不匹配,則在所述文檔對應的位置處創建提示標記。
本發明采用的另一種技術方案是:提供一種文檔結構的分析裝置,包括:
讀取模塊,用于讀取文檔全文;
查找模塊,用于從所述文檔全文中查找所有有效屬性,并將每一所述有效屬性在所述文檔的對應位置處創建標簽;
提取模塊,用于提取所有標簽并創建成結構樹。
其中,所述分析裝置還包括:
預設模塊,用于定義預設屬性。
其中,所述查找模塊中還包括:
順序讀取單元,用于根據所述文檔全文的順序依次讀取關鍵屬性;
匹配單元,用于將讀取的所述關鍵屬性與所述預設屬性相互匹配;
判斷屬性單元,用于判斷所屬關鍵屬性是否為有效屬性,若讀取的所述關鍵屬性與所述預設屬性相匹配,則判斷所述關鍵屬性為有效屬性,若讀取的所述關鍵屬性為無效屬性,則繼續讀取所述文檔中的下一關鍵屬性;及
創建標簽單元,用于創建標簽,若讀取的所述關鍵屬性為有效屬性,則將所述有效屬性在所述文檔對應的位置處創建標簽,并繼續讀取所述文檔的下一關鍵屬性,直至整個文檔讀取完畢。
相較于現有技術,本發明提供的一種文檔結構的分析方法和系統,能夠獲取文檔的特定格式并創建出相應地文檔結構,用戶在查閱這些專利文檔時無需單頁瀏覽,通過創建的文檔結構即可快速定位到文檔對應位置處,方便用戶根據文檔結構精準快速地查閱文檔內容。
附圖說明
圖1是本發明一種文檔的分析方法第一實施方式的流程示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市唯德科創信息有限公司,未經深圳市唯德科創信息有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610233947.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據庫讀寫分離的方法和裝置
- 下一篇:賬號推薦方法及裝置





