[發明專利]一種政策文件結構化分解方法有效

申請號：	201910766729.2	申請日：	2019-08-19
公開（公告）號：	CN110609983B	公開（公告）日：	2023-06-09
發明（設計）人：	金耀初;何衛靈;劉華;張宏輝	申請（專利權）人：	廣州利科科技有限公司
主分類號：	G06F40/143	分類號：	G06F40/143;G06F40/151;G06F40/289;G06F40/211;G06F40/253
代理公司：	廣州智豐知識產權代理事務所(普通合伙) 44655	代理人：	邱奕才
地址：	510000 廣東省廣州***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種政策文件結構化分方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種政策文件結構化分解方法，其特征在于，所述方法包括：

步驟S1：獲取語料集；

所述步驟S1包括：

步驟S1.1：從政策網站選取網頁；

步驟S1.2：把網頁定義為document，對document進行遍歷獲取文本數據；

步驟S1.3：根據獲取的文本數據建立元素組集；

所述元素組集為：element(tuple1，tuple2……tuplen)，tuplei＝{(tagi，datai|i＝1，2，……n)}，其中n為元素組的個數，i表示元素組編號，tagi表示第i個元素組內的html標簽，datai表示第i個元素組內的html內容；

步驟S2：對語料集進行預處理；

步驟S3：構建篇章結構樹；

步驟S4：構建政策條件樹；

所述步驟S4包括：

步驟S4.1：提取樹節點中與政策條款相關的文本區域；

步驟S4.2：使用詞性的組合模板過濾文本區域內的文本；

步驟S4.3：對過濾后的文本進行詞性分析；

步驟S4.4：根據分析結果對政策條款及條件進行抽取，根據政策條款及條件構建政策條件樹；

所述政策條件樹的樹節點對應政策條款及政策條件，樹節點之間的關聯對應政策條款之間的關聯或政策條款與政策條件之間的關聯；

步驟S5：根據篇章結構樹與政策條件樹構建新的建構樹，并且可視化。

2.根據權利要求1所述的一種政策文件結構化分解方法，其特征在于，所述步驟S2包括：

步驟S2.1：對語料集進行清洗；

步驟S2.2：對清洗后的語料集進行分詞；

步驟S2.3：對分詞后的語料集進行詞性標注。

3.根據權利要求2所述的一種政策文件結構化分解方法，其特征在于，所述步驟S2.3的標注集為人民日報標注語料庫。

4.根據權利要求1所述的一種政策文件結構化分解方法，其特征在于，所述步驟S3包括：

步驟S3.1：編寫描述各級標題樣式的正則表達式；

步驟S3.2：根據正則表達式，建立標題模板集。

步驟S3.3：使用標題模板集與元素組集進行匹配，若元素組內有本文內容符合正則表達式，執行步驟S3.4，否則執行步驟52.5；

步驟S3.4：在對應層構建新建節點，節點名為元素組符合正則表達式的文本內容，節點內存儲文本內容對應的元素組；

步驟S3.5：將元素組合并到最臨近節點元素組中；

步驟S3.6：各節點關聯，形成結構樹；

所述結構樹的節點層次為對應的標題層次，節點之間的關聯為元素組之間的關聯。

5.根據權利要求1所述的一種政策文件結構化分解方法，其特征在于，所述步驟S4.1包括：

步驟S4.11：選取與政策條款相關的關鍵詞；

步驟S4.12：編寫描述政策關鍵詞的正則表達式；

步驟S4.13：使用正則表達式匹配樹節點中的文本；

步驟S4.14：從文本中選取與關鍵詞相關的一個文本區域。

6.根據權利要求1所述的一種政策文件結構化分解方法，其特征在于，所述步驟S4.3還包括：對文本進行句法分析。

7.根據權利要求6所述的一種政策文件結構化分解方法，其特征在于，所述句法分析為依存句法分析。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于廣州利科科技有限公司，未經廣州利科科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910766729.2/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：PDF文件數據解析系統及方法
下一篇：一種Windows系統中自動拆分谷歌key的方法及系統

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】