[發(fā)明專利]一種文檔結構的分析方法和裝置在審
| 申請?zhí)枺?/td> | 201610233947.6 | 申請日: | 2016-04-16 |
| 公開(公告)號: | CN107301180A | 公開(公告)日: | 2017-10-27 |
| 發(fā)明(設計)人: | 謝德意 | 申請(專利權)人: | 深圳市唯德科創(chuàng)信息有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518109 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 結構 分析 方法 裝置 | ||
1.一種文檔結構的分析方法,其特征在于,該方法包括如下步驟:
讀取文檔全文;
從所述文檔全文中查找所有有效屬性,并將每一所述有效屬性在所述文檔的對應位置處創(chuàng)建標簽;
提取所有標簽并創(chuàng)建成結構樹。
2.如權利要求1所述的分析方法,其特征在于,所述讀取文檔全文的步驟之前還包括:定義預設屬性。
3.如權利要求2所述的分析方法,其特征在于,所述從所述文檔全文中查找所述有效屬性,并將每一所述有效屬性在所述文檔的對應位置處創(chuàng)建標簽的步驟包括:
根據(jù)所述文檔全文的順序依次讀取關鍵屬性;
將讀取的所述關鍵屬性與所述預設屬性相互匹配;
若讀取的所述關鍵屬性與所述預設屬性相匹配,則判斷所述關鍵屬性為有效屬性,若讀取的所述關鍵屬性為無效屬性,則繼續(xù)讀取所述文檔中的下一關鍵屬性;及
若讀取的所述關鍵屬性為有效屬性,則將所述有效屬性在所述文檔對應的位置處創(chuàng)建標簽,并繼續(xù)讀取所述文檔的下一關鍵屬性,直至整個文檔讀取完畢。
4.如權利要求3所述的分析方法,其特征在于,所述關鍵屬性包括字體樣式、段落樣式、文字屬性、標題級別或特殊文字中一種或多種。
5.如權利要求4所述的分析方法,其特征在于,若讀取的所述關鍵屬性與下列所述預設屬性中任意一項相匹配,則判斷所述關鍵屬性為有效屬性:所述預設屬性包括 “說明書摘要”、“摘要附圖”、“權利要求書”、“說明書”以及“說明書附圖”的標題,其中,所述“說明書”包括 “技術領域”、“背景技術”、“發(fā)明內容”、“附圖說明”及“具體實施方式”的特殊文字。
6.如權利要求1所述的分析方法,其特征在于,所述提取所有標簽并創(chuàng)建成結構樹的步驟包括:
根據(jù)每一所述標簽在所述文檔中的位置依次讀取每個所述標簽;
依據(jù)每一所述標簽之間的邏輯層次關系建立邏輯結構樹。
7.如權利要求3所述的分析方法,其特征在于,所述預設屬性包括文檔規(guī)則庫,所述文檔規(guī)則庫包括但不限于專利撰寫法規(guī)、撰寫常用邏輯規(guī)則及自定義規(guī)則;若讀取的所述關鍵屬性與所述預設屬性的所述文檔規(guī)則庫相匹配,若讀取的所述關鍵屬性與所述文檔規(guī)則庫不匹配,則在所述文檔對應的位置處創(chuàng)建提示標記。
8.一種文檔結構的分析裝置,所述裝置用于包括非易失性內存的計算機系統(tǒng)中,其特征在于,包括:
讀取模塊,用于讀取文檔全文;
查找模塊,用于從所述文檔全文中查找所有有效屬性,并將每一所述有效屬性在所述文檔的對應位置處創(chuàng)建標簽;
提取模塊,用于提取所有標簽并創(chuàng)建成結構樹。
9.如權利要求8所述的分析裝置,其特征在于,所述分析裝置還包括:
預設模塊,用于定義預設屬性。
10.如權利要求9所述的分析裝置,其特征在于,所述查找模塊中還包括:
順序讀取單元,用于根據(jù)所述文檔全文的順序依次讀取關鍵屬性;
匹配單元,用于將讀取的所述關鍵屬性與所述預設屬性相互匹配;
判斷屬性單元,用于判斷所屬關鍵屬性是否為有效屬性,若讀取的所述關鍵屬性與所述預設屬性相匹配,則判斷所述關鍵屬性為有效屬性,若讀取的所述關鍵屬性為無效屬性,則繼續(xù)讀取所述文檔中的下一關鍵屬性;及
創(chuàng)建標簽單元,用于創(chuàng)建標簽,若讀取的所述關鍵屬性為有效屬性,則將所述有效屬性在所述文檔對應的位置處創(chuàng)建標簽,并繼續(xù)讀取所述文檔的下一關鍵屬性,直至整個文檔讀取完畢。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市唯德科創(chuàng)信息有限公司,未經(jīng)深圳市唯德科創(chuàng)信息有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610233947.6/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:數(shù)據(jù)庫讀寫分離的方法和裝置
- 下一篇:賬號推薦方法及裝置





