[發明專利]地理命名實體識別模型訓練方法及地理命名實體識別方法在審
| 申請號: | 202310625300.8 | 申請日: | 2023-05-30 |
| 公開(公告)號: | CN116562296A | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 徐流暢;夏天舒;張程錕;張嘉俊;姚俊偉 | 申請(專利權)人: | 信雅達科技股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/151;G06F40/30;G06N3/0499;G06N3/045;G06N3/08 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 張解翠 |
| 地址: | 310051 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 地理 命名 實體 識別 模型 訓練 方法 | ||
1.一種地理命名實體識別模型訓練方法,其特征在于,包括以下步驟:
獲取第一網絡文本數據,并根據所述第一網絡文本數據對初始地理命名實體語義模型進行增量預訓練,得到第一地理命名實體語義模型;
對所述第一網絡文本數據進行標注,并根據標注結果構建地理命名實體識別數據集;
根據所述第一地理命名實體語義模型組建初始地理命名實體識別模型,并利用所述地理命名實體識別數據集對所述初始地理命名實體識別模型進行微調,得到目標地理命名實體識別模型。
2.根據權利要求1所述的一種地理命名實體識別模型訓練方法,其特征在于,所述初始地理命名實體語義模型包括基于多頭自注意力機制的語義特征提取模塊和混淆詞校正模塊,其中,所述基于多頭自注意力機制的語義特征提取模塊包括多頭自注意力層、殘差網絡和全連接前饋神經網絡,并以Leaky?ReLU為激活函數,所述混淆詞校正模塊以BERT預訓練語言模型中的掩碼語言模型為基礎,設置基于混淆詞替換的全詞動態掩碼策略。
3.根據權利要求2所述的一種地理命名實體識別模型訓練方法,其特征在于,所述殘差網絡由若干殘差單元組成,單個殘差單元表示為:
self-attentionl=self-attentionl-1+F(self-attentionl-1)
其中,self-attentionl和self-attentionl-1分別表示多頭自注意力第l層和第l-1層的輸出,F表示多頭自注意力的處理函數。
4.根據權利要求2所述的一種地理命名實體識別模型訓練方法,其特征在于,所述全連接前饋神經網絡連接在所述多頭自注意層的輸出后,所述基于多頭自注意力機制的語義特征提取模塊還包括對每一層的輸出進行層歸一化。
5.根據權利要求2所述的一種地理命名實體識別模型訓練方法,其特征在于,所述基于混淆詞替換的全詞動態掩碼策略由動態掩碼策略、全詞掩碼策略和基于混淆詞替換的掩碼策略組成,其中,所述動態掩碼策略為將每個模型輸入以N種不同的方式被掩碼,所述全詞掩碼策略為屏蔽完整的地理命名實體,所述基于混淆詞替換的掩碼策略為采用混淆詞替換分詞標記。
6.根據權利要求1所述的一種地理命名實體識別模型訓練方法,其特征在于,所述對所述第一網絡文本數據進行標注,并根據標注結果構建地理命名實體識別數據集,包括:
將所述第一網絡文本數據中每個地理命名實體的開始字符標記為B-Entity、中間字符標記為I-Entity,所述第一網絡文本數據中的其余字符則標記為O,得到第一地理命名實體數據集;
采集中文細粒度命名實體識別數據集,并根據所述第一網絡文本數據的標注方法對所述中文細粒度命名實體識別數據集進行標注,得到第二地理命名實體數據集;
將所述第一地理命名實體數據集與所述第二地理命名實體數據集融合,得到地理命名實體識別數據集。
7.根據權利要求1所述的一種地理命名實體識別模型訓練方法,其特征在于,所述根據所述第一地理命名實體語義模型組建初始地理命名實體識別模型,包括:
在所述第一地理命名實體語義模型后添加任務式的神經網絡結構組成初始地理命名實體識別模型,其中,所述第一地理命名實體語義模型為所述初始地理命名實體識別模型的編碼器,所述任務式的神經網絡結構為所述初始地理命名實體識別模型的解碼器。
8.一種地理命名實體識別方法,其特征在于,包括以下步驟:
獲取第二網絡文本數據,并對所述第二網絡文本數據進行清洗得到目標網絡文本數據;
將所述目標網絡文本數據輸入地理命名實體識別模型中進行訓練,得到所述初始網絡文本數據對應的地理命名實體識別結果,所述地理命名實體識別模型是根據權利要求1-7所述的方法訓練得到的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于信雅達科技股份有限公司,未經信雅達科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310625300.8/1.html,轉載請聲明來源鉆瓜專利網。





