[發明專利]一種政策文件結構化分解方法有效
| 申請號: | 201910766729.2 | 申請日: | 2019-08-19 |
| 公開(公告)號: | CN110609983B | 公開(公告)日: | 2023-06-09 |
| 發明(設計)人: | 金耀初;何衛靈;劉華;張宏輝 | 申請(專利權)人: | 廣州利科科技有限公司 |
| 主分類號: | G06F40/143 | 分類號: | G06F40/143;G06F40/151;G06F40/289;G06F40/211;G06F40/253 |
| 代理公司: | 廣州智豐知識產權代理事務所(普通合伙) 44655 | 代理人: | 邱奕才 |
| 地址: | 510000 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 政策 文件 結構 化分 方法 | ||
1.一種政策文件結構化分解方法,其特征在于,所述方法包括:
步驟S1:獲取語料集;
所述步驟S1包括:
步驟S1.1:從政策網站選取網頁;
步驟S1.2:把網頁定義為document,對document進行遍歷獲取文本數據;
步驟S1.3:根據獲取的文本數據建立元素組集;
所述元素組集為:element(tuple1,tuple2……tuplen),tuplei={(tagi,datai|i=1,2,……n)},其中n為元素組的個數,i表示元素組編號,tagi表示第i個元素組內的html標簽,datai表示第i個元素組內的html內容;
步驟S2:對語料集進行預處理;
步驟S3:構建篇章結構樹;
步驟S4:構建政策條件樹;
所述步驟S4包括:
步驟S4.1:提取樹節點中與政策條款相關的文本區域;
步驟S4.2:使用詞性的組合模板過濾文本區域內的文本;
步驟S4.3:對過濾后的文本進行詞性分析;
步驟S4.4:根據分析結果對政策條款及條件進行抽取,根據政策條款及條件構建政策條件樹;
所述政策條件樹的樹節點對應政策條款及政策條件,樹節點之間的關聯對應政策條款之間的關聯或政策條款與政策條件之間的關聯;
步驟S5:根據篇章結構樹與政策條件樹構建新的建構樹,并且可視化。
2.根據權利要求1所述的一種政策文件結構化分解方法,其特征在于,所述步驟S2包括:
步驟S2.1:對語料集進行清洗;
步驟S2.2:對清洗后的語料集進行分詞;
步驟S2.3:對分詞后的語料集進行詞性標注。
3.根據權利要求2所述的一種政策文件結構化分解方法,其特征在于,所述步驟S2.3的標注集為人民日報標注語料庫。
4.根據權利要求1所述的一種政策文件結構化分解方法,其特征在于,所述步驟S3包括:
步驟S3.1:編寫描述各級標題樣式的正則表達式;
步驟S3.2:根據正則表達式,建立標題模板集。
步驟S3.3:使用標題模板集與元素組集進行匹配,若元素組內有本文內容符合正則表達式,執行步驟S3.4,否則執行步驟52.5;
步驟S3.4:在對應層構建新建節點,節點名為元素組符合正則表達式的文本內容,節點內存儲文本內容對應的元素組;
步驟S3.5:將元素組合并到最臨近節點元素組中;
步驟S3.6:各節點關聯,形成結構樹;
所述結構樹的節點層次為對應的標題層次,節點之間的關聯為元素組之間的關聯。
5.根據權利要求1所述的一種政策文件結構化分解方法,其特征在于,所述步驟S4.1包括:
步驟S4.11:選取與政策條款相關的關鍵詞;
步驟S4.12:編寫描述政策關鍵詞的正則表達式;
步驟S4.13:使用正則表達式匹配樹節點中的文本;
步驟S4.14:從文本中選取與關鍵詞相關的一個文本區域。
6.根據權利要求1所述的一種政策文件結構化分解方法,其特征在于,所述步驟S4.3還包括:對文本進行句法分析。
7.根據權利要求6所述的一種政策文件結構化分解方法,其特征在于,所述句法分析為依存句法分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州利科科技有限公司,未經廣州利科科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910766729.2/1.html,轉載請聲明來源鉆瓜專利網。





