[發明專利]一種四險一金領域政策法規文本實體識別方法在審
| 申請號: | 202110039836.2 | 申請日: | 2021-01-13 |
| 公開(公告)號: | CN112836046A | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 范賀添;申林山;黃少濱;李熔盛;吳漢瑜;谷虹潤 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/295;G06K9/62;G06N3/04;G06N3/08;G06F16/36 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 四險一 金領 政策法規 文本 實體 識別 方法 | ||
1.一種四險一金領域政策法規文本實體識別方法,其特征在于,包括以下步驟:
步驟1:輸入待識別的文本;構建四險一金領域實體分詞和標注詞典,基于四險一金領域實體分詞和標注詞典預訓練語言模型BERT;
步驟2:對待識別的文本進行分詞處理;
步驟3:取部分分詞后的待識別的文本構建訓練集,其余分詞后的待識別的文本組成測試集;根據四險一金領域實體分詞和標注詞典對訓練集中分詞后的待識別的文本進行標注;
步驟4:將訓練集中標注好的詞語切分為單個的漢字,并根據該詞語的實體類別以及每個漢字在實體中出現的位置進行進一步的BIO實體邊界標記;
步驟5:將標注好的訓練集輸入到預訓練語言模型BERT中,得到每個字符基于上下文特征動態生成的具有上下文語義信息的字向量Wicharbert;
步驟6:將標注好的訓練集輸入word2vec中的skip-gram模型中訓練,得到每個詞語的詞向量;
步驟7:將具有上下文語義信息的字向量Wicharbert和其所在的詞的詞向量Wiword利用維度拼接的方式進行特征融合,得到融合后的字詞組合向量Wi;
步驟8:將訓練集中融合后的字詞組合向量Wi輸入至雙向長短期記憶網絡Bi-LSTM和條件隨機場CRF模型進行訓練,得到實體識別和分類模型;
首先將訓練集中融合后的字詞組合向量Wi作為輸入向量輸入到雙向長短期記憶網絡Bi-LSTM中采集到有效的上下文信息,再利用條件隨機場CRF模型作為解碼器對模型進行解碼,即通過轉移概率來得到每個字符最優的標記序列,從而為實體打上類別標簽,實現實體識別和分類;
步驟9:將測試集輸入到訓練好的實體識別和分類模型中,得到待識別文本的實體識別結果;所述的實體識別結果包含實體、實體的起始位置、實體的終止位置、實體的類別標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110039836.2/1.html,轉載請聲明來源鉆瓜專利網。





