[發明專利]一種基于擴充語料庫神經網絡的政策文件信息提取方法有效
| 申請號: | 202011033636.8 | 申請日: | 2020-09-27 |
| 公開(公告)號: | CN112257442B | 公開(公告)日: | 2023-01-24 |
| 發明(設計)人: | 李軍鋒;廖敏;張磊;馮梅;向彥任;李濟;萬勤;陳喬松;曹宏劍;胡高浩 | 申請(專利權)人: | 重慶生產力促進中心;重慶郵電大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F18/214;G06N3/045;G06N3/0442;G06N3/08 |
| 代理公司: | 重慶西南華渝專利代理有限公司 50270 | 代理人: | 郭桂林 |
| 地址: | 401120*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 擴充 語料庫 神經網絡 政策 文件 信息 提取 方法 | ||
1.一種基于擴充語料庫神經網絡的政策文件信息提取方法,其特征在于,包括以下步驟:
構建政策文件語料庫;
基于構建的政策文件語料庫進行模型訓練以生成政策文件信息提取模型;
利用政策文件信息提取模型對目標政策文件進行提取,其中,構建政策文件語料庫包括:
對現有開源語料庫進行篩選,保留與政策文件相關性大于80%的語料,并將現有開源語料庫中的其它語料刪除;
收集現有政策文件,整理分類后得到政策文件常用詞語語料集、政府各部門領導名單語料集以及政策文件目錄語料集,并對現有政策文件中出現的一機構對應多名稱的語料進行標注;
對政策文件常用詞語語料集、政府各部門領導名單語料集以及政策文件目錄語料集定期更新并加入篩選后的現有開源語料庫中,得到初始政策文件語料庫;
對包含政策文件的網頁進行爬取,人工閱讀后提取政策文件信息并將其加入初始政策文件語料庫,得到擴充后政策文件語料庫;
對擴充后政策文件語料庫進行標注,完成政策文件語料庫的構建,其中,
基于構建的政策文件語料庫進行模型訓練以生成政策文件信息提取模型包括以下步驟:
對構建的政策文件語料庫進行預處理,生成訓練集和驗證集;
基于BERT預訓練模型讀取訓練集和驗證集數據,生成包含序號、中文文本以及類別的第一列表;
對第一列表進行特征轉換得到第一特征值;
將第一特征值輸入BERT預訓練模型進行模型訓練;
利用Adam優化函數進行優化訓練,獲取最佳模型參數,得到政策文件信息提取模型;其中,
利用Adam優化函數進行優化訓練,獲取最佳模型參數包括以下步驟:
采用Adam優化函數,利用訓練中的模型對每個epoch在驗證集上進行驗證,每個epoch后調整模型參數并生成每個epoch對應的F1分數;
對F1分數進行判定,根據判定結果,確定最佳模型參數,其中,判定包括:
若F1分數大于0.95,則停止訓練,保存此時的模型參數,此時的模型參數即為最佳模型參數;
若F1分數不大于0.95,則對F1分數做進一步判定,若F1分數大于0.9且相鄰兩個epoch生成的F1分數變化小于千分之一,則停止訓練,保存此時的模型參數即為最佳模型參數,反之,則繼續進行模型訓練;其中,
利用訓練中的模型對每個epoch在驗證集上進行驗證包括:對連續多個epoch對應的F1分數進行比較,若F1分數沒有提升,則設置早停系數,停止模型訓練。
2.根據權利要求1所述的基于擴充語料庫神經網絡的政策文件信息提取方法,其特征在于,對擴充后政策文件語料庫進行標注包括:
基于THULAC中文詞法分析工具,同時多人標注,取多人標注后的交集作為標注結果。
3.根據權利要求1所述的基于擴充語料庫神經網絡的政策文件信息提取方法,其特征在于,訓練集和驗證集中含有的數據量比值為(7~8):(2~3)。
4.根據權利要求1至2任一項所述的基于擴充語料庫神經網絡的政策文件信息提取方法,其特征在于,利用政策文件信息提取模型對目標政策文件進行提取包括以下步驟:
政策文件信息提取模型讀取目標政策文件信息數據,生成包含序號、中文文本以及類別的第二列表;
對第二列表進行特征轉換,得到第二特征值;
將第二特征值輸入政策文件信息提取模型進行信息提取,得到提取結果。
5.根據權利要求1至2任一項所述的基于擴充語料庫神經網絡的政策文件信息提取方法,其特征在于,基于構建的政策文件語料庫進行模型訓練以生成政策文件信息提取模型包括利用Mask LM和Next Sentence Prediction兩種策略進行模型訓練。
6.根據權利要求1至2任一項所述的基于擴充語料庫神經網絡的政策文件信息提取方法,其特征在于,政府各部門領導名單語料集包括領導姓名、工作地方、單位級別以及職務。
7.一種政策文件語料庫構建方法,其特征在于,包括以下步驟:
對現有開源語料庫進行篩選,保留與政策文件相關性大于80%的語料,并將現有開源語料庫中的其它語料刪除;
收集現有政策文件,整理分類后得到政策文件常用詞語語料集、政府各部門領導名單語料集以及政策文件目錄語料集,并對現有政策文件中出現的一機構對應多名稱的語料進行標注;
對政策文件常用詞語語料集、政府各部門領導名單語料集以及政策文件目錄語料集定期更新并加入篩選后的現有開源語料庫中,得到初始政策文件語料庫;
對包含政策文件的網頁進行爬取,人工閱讀后提取政策文件信息并將其加入初始政策文件語料庫,得到擴充后政策文件語料庫;
對擴充后政策文件語料庫進行標注,完成政策文件語料庫的構建,其中,
基于構建的政策文件語料庫進行模型訓練以生成政策文件信息提取模型包括以下步驟:
對構建的政策文件語料庫進行預處理,生成訓練集和驗證集;
基于BERT預訓練模型讀取訓練集和驗證集數據,生成包含序號、中文文本以及類別的第一列表;
對第一列表進行特征轉換得到第一特征值;
將第一特征值輸入BERT預訓練模型進行模型訓練;
利用Adam優化函數進行優化訓練,獲取最佳模型參數,得到政策文件信息提取模型;其中,
利用Adam優化函數進行優化訓練,獲取最佳模型參數包括以下步驟:
采用Adam優化函數,利用訓練中的模型對每個epoch在驗證集上進行驗證,每個epoch后調整模型參數并生成每個epoch對應的F1分數;
對F1分數進行判定,根據判定結果,確定最佳模型參數,其中,判定包括:
若F1分數大于0.95,則停止訓練,保存此時的模型參數,此時的模型參數即為最佳模型參數;
若F1分數不大于0.95,則對F1分數做進一步判定,若F1分數大于0.9且相鄰兩個epoch生成的F1分數變化小于千分之一,則停止訓練,保存此時的模型參數即為最佳模型參數,反之,則繼續進行模型訓練;其中,
利用訓練中的模型對每個epoch在驗證集上進行驗證包括:對連續多個epoch對應的F1分數進行比較,若F1分數沒有提升,則設置早停系數,停止模型訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶生產力促進中心;重慶郵電大學,未經重慶生產力促進中心;重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011033636.8/1.html,轉載請聲明來源鉆瓜專利網。





