[發明專利]訓練模型的方法、命名實體識別方法和裝置在審
| 申請號: | 202210082318.3 | 申請日: | 2022-01-24 |
| 公開(公告)號: | CN114611514A | 公開(公告)日: | 2022-06-10 |
| 發明(設計)人: | 蔡青山;王永強 | 申請(專利權)人: | 企知道網絡技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518051 廣東省深圳市南山區西麗*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 模型 方法 命名 實體 識別 裝置 | ||
本申請的實施例提供了一種訓練模型的方法、命名實體識別方法和裝置,該模型訓練方法包括:獲取具有標記的樣本集;將文本信息輸入預訓練的BERT模型,得到對應文本信息的特征向量;在特征向量中注入對抗擾動生成對抗樣本;將對抗樣本作為條件隨機場的輸入,將標注字符作為條件隨機場的輸出,以最大化真實標注序列的對數概率為目的訓練條件隨機場,以完成識別模型的訓練。本申請由于在訓練過程中增加對抗樣本,從而能夠增強字的語義表示,挖掘企業描述文本的局部特征以及字的多重語義信息,同時能夠增強模型的穩健型和泛化能力,進而提高了中文企業主營產品命名實體識別的準確率、查全率和識別效率。
技術領域
本申請的實施例涉及自然語言處理技術領域,尤其涉及一種訓練模型的方法、命名實體識別方法和裝置。
背景技術
企業經營生產的主要產品是企業畫像的重要部分,從海量的企業產品信息中識別出主要經營產品,能夠為企業行業分類、同行推薦等上層應用提供重要的信息支撐。企業的主營產品是商業信息里面的一項關鍵信息,面向企業產品信息文本中的主營產品命名實體識別成為企業畫像中的一項核心技術。
基于詞典的命名實體識別方法嚴重依賴于詞典庫,無法識別未登錄詞,且無法識別實體嵌套的情形。基于規則的命名實體識別方法在構建規則時需要語言學背景知識,中文表達具有多樣性,規則難以枚舉、容易沖突,且不具有遷移性。基于神經網絡的命名實體識別方法,表征長文本句子語義向量很弱,導致主營產品識別不全。基于預訓練語言模型微調的方法,具有很強的句子語義向量表示,但是遇到訓練樣本未出現的句式,會出現識別不準的問題,中文句式種類很多,訓練樣本難以覆蓋全面。
因此,亟待提出一種能夠有效提高企業主營產品命名實體識別準確率高、查全率高、識別效率高的命名實體識別方法。
發明內容
本申請的實施例提供了一種訓練模型的方法、命名實體識別方法和裝置,能夠增強字的語義表示,挖掘企業描述文本的局部特征以及字的多重語義信息,同時增強了模型的穩健性和泛化能力,提高了中文企業主營產品命名實體識別的準確率、查全率和識別效率。
在本申請的第一方面,提供了一種訓練用于識別企業主營產品的命名實體模型的方法,包括:
獲取具有標記的樣本集,其中,所述樣本集中的樣本包括描述企業產品的文本信息和所述文本信息的標注字符;
將所述文本信息輸入預訓練的BERT模型,得到對應所述文本信息的特征向量;
在所述特征向量中注入對抗擾動生成對抗樣本;
將所述對抗樣本作為條件隨機場的輸入,將所述標注字符作為所述條件隨機場的輸出,以最大化真實標注序列的對數概率為目的訓練所述條件隨機場,以完成識別模型的訓練。
在一些可能的實現方式中,所述在所述特征向量中增加對抗擾動生成對抗樣本包括:
通過對抗學習在所述特征向量中注入所述對抗擾動,生成所述對抗樣本:
其中,為訓練集,x為特征向量,y為標簽,θ為模型參數,L(x,y;θ)為單個樣本的損失函數,Δx為對抗擾動,Ω為擾動空間。
在一些可能的實現方式中,所述對抗擾動采用下式進行計算:
其中,為對x的梯度,x為特征向量,y為標簽,θ為模型參數,L(x,y;θ) 為單個樣本的損失函數,Δx為對抗擾動。
在一些可能的實現方式中,還包括:采用L2歸一化,對所述對抗擾動進行標準化處理:
其中,為對x的梯度,x為特征向量,y為標簽,θ為模型參數,L(x,y;θ) 為單個樣本的損失函數,Δx為對抗擾動。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于企知道網絡技術有限公司,未經企知道網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210082318.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于核酸提取的旋轉模塊及提取裝置
- 下一篇:可調平加壓裝置及其貼片設備





