[發明專利]訓練模型的方法、命名實體識別方法和裝置在審
| 申請號: | 202210082318.3 | 申請日: | 2022-01-24 |
| 公開(公告)號: | CN114611514A | 公開(公告)日: | 2022-06-10 |
| 發明(設計)人: | 蔡青山;王永強 | 申請(專利權)人: | 企知道網絡技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518051 廣東省深圳市南山區西麗*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 模型 方法 命名 實體 識別 裝置 | ||
1.一種訓練用于識別企業主營產品的命名實體模型的方法,其特征在于,包括:
獲取具有標記的樣本集,其中,所述樣本集中的樣本包括描述企業產品的文本信息和所述文本信息的標注字符;
將所述文本信息輸入預訓練的BERT模型,得到對應所述文本信息的特征向量;
在所述特征向量中注入對抗擾動生成對抗樣本;
將所述對抗樣本作為條件隨機場的輸入,將所述標注字符作為所述條件隨機場的輸出,以最大化真實標注序列的對數概率為目的訓練所述條件隨機場,以完成識別模型的訓練。
2.根據權利要求1所述的訓練方法,其特征在于,所述在所述特征向量中增加對抗擾動生成對抗樣本包括:
通過對抗學習在所述特征向量中注入所述對抗擾動,生成所述對抗樣本:
其中,為訓練集,x為特征向量,y為標簽,θ為模型參數,L(x,y;θ)為單個樣本的損失函數,Δx為對抗擾動,Ω為擾動空間。
3.根據權利要求2所述的訓練方法,其特征在于,所述對抗擾動采用下式進行計算:
其中,為對x的梯度,x為特征向量,y為標簽,θ為模型參數,L(x,y;θ)為單個樣本的損失函數,Δx為對抗擾動。
4.根據權利要求3所述的訓練方法,其特征在于,還包括:
采用L2歸一化,對所述對抗擾動進行標準化處理:
其中,為對x的梯度,x為特征向量,y為標簽,θ為模型參數,L(x,y;θ)為單個樣本的損失函數,Δx為對抗擾動。
5.根據權利要求1所述的訓練方法,其特征在于,所述獲取具有標記的樣本集包括:
獲取描述企業產品的所述文本信息;
基于BIO標注方式,對所述文本信息進行標注;
將所述文本信息和所述標注字符作為所述樣本集;
其中,所述BIO標注規則包括:若一個字符單元是一個主營產品的開始字符,則標注為B-nice;若一個字符單元是一個主營產品詞的非開始字符,則標注為I-nice;若一個字符單元不屬于主營產品詞,則標注為O。
6.一種命名實體識別方法,其特征在于,包括:
獲取待識別文本信息,所述待識別文本信息用于描述企業產品;
根據所述待識別文本信息,通過權利要求1所述的方法訓練完成的識別模型,確定所述待識別文本信息對應的概率最大的BIO標記序列;
根據所述概率最大的BIO標記序列,確定企業主營產品。
7.一種訓練用于識別企業主營產品的命名實體模型的裝置,其特征在于,包括:
第一獲取模塊,用于獲取具有標記的樣本集,其中,所述樣本集中的樣本包括描述企業產品的文本信息和所述文本信息的標注字符;
向量提取模塊,用于將所述文本信息輸入預訓練的BERT模型,得到對應所述文本信息的特征向量;
對抗生成模塊,用于在所述特征向量中注入對抗擾動生成對抗樣本;
模型訓練模塊,用于將所述對抗樣本作為條件隨機場的輸入,將所述標注字符作為所述條件隨機場的輸出,以最大化真實標注序列的對數概率為目的訓練所述條件隨機場,以完成識別模型的訓練。
8.一種命名實體識別裝置,其特征在于,包括:
第二獲取模塊,用于獲取待識別文本信息,所述待識別文本信息用于描述企業產品;
第一確定模塊,用于根據所述待識別文本信息,通過權利要求7所述的裝置訓練完成的識別模型,確定所述待識別文本信息對應的概率最大的BIO標記序列;
第二確定模塊,用于根據所述概率最大的BIO標記序列,確定企業主營產品。
9.一種電子設備,包括存儲器和處理器,所述存儲器上存儲有計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至5中任一項所述的方法或如權利要求6所述的方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至5中任一項所述的方法或如權利要求6所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于企知道網絡技術有限公司,未經企知道網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210082318.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于核酸提取的旋轉模塊及提取裝置
- 下一篇:可調平加壓裝置及其貼片設備





