[發明專利]基于標簽引導的字詞融合的命名實體識別方法在審
| 申請號: | 202110027765.4 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112699685A | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 胡永利;于騰;孫艷豐;王博岳;尹寶才 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 標簽 引導 字詞 融合 命名 實體 識別 方法 | ||
1.基于標簽引導的字詞融合的命名實體識別方法,其特征在于包括以下步驟:
步驟一:通過BERT模型對待識別的句子進行預訓練,得到句中每個字的特征向量:
以句子為單位進行輸入,輸入的序列X={x1,x2,…,xn},其中n代表一句話中字的個數,得到輸入序列的特征C={c1,c2,…,ci,…,cn},其中ci為經過BERT預訓練后第i個字的特征向量;
步驟二:以待識別句子中的每一個字為對象,對包含這個字的所有的分詞結果進行BIE格式標注,得到每個字的分詞標注結果;然后根據BIE格式類別,對每個字的分詞結果進行分組;其中,對于第i個字xi,A為分詞結果中包含xi的一個詞,則對A進行BIE格式標注的具體過程為:如果xi為A中的第一個字符,則A被標注為B;如果xi為A中的中間字符,即非開始與結尾部分,則A被標注為I;如果xi為A中的結尾字符,則A被標注為E;
步驟三、對步驟二得到的分組結果提取每個組內所有分詞的特征向量,將每個組內的所有分詞的特征向量與當前字的特征向量進行融合,采用注意力機制來控制每個組的貢獻程度,最后將每個組信息融合,得到每一個詞的融合詞向量;
步驟四:通過門控機制對字特征與融合詞向量進行處理,得到所有字的門控單元的輸出特征向量;
步驟五:通過BiLSTM與CRF模塊對步驟四得到的所有字的融合詞向量進行序列標注,得到最優序列標注,實現命名實體識別。
2.根據權利要求1所述的基于標簽引導的字詞融合的命名實體識別方法,其特征在于步驟三具體包括如下步驟:
(1)提取句子中所有分詞結果的詞特征向量W={w1,w2,…,wI},其中I代表句子中所有的分詞結果;
(2)在步驟二中得到了基于當前字的分詞標注結果,提取分詞標注結果中每個詞的詞向量,其中,分詞標注結果一共分為三類,即B,I,E,每一類包含0個或多個詞,如果分詞標注類別中包含多個結果,即多個詞向量,則將其進行融合,即
其中指的是當前字i下針對每個c融合的詞特征向量,c代表標注的類別,tag代表分組類別,N代表每個標注內包含的分詞個數,當前字包含的詞向量的集合為:
(3)對于每一個標注類別c,通過當前字的特征向量與c所屬組的特征向量進行拼接,計算權重
其中,為訓練的參數,σ是一個sigmoid函數,ci為當前字的特征向量;
(4)對所有類型的標簽tag進行softmax操作,得到相應的注意力系數具體如下:
(5)將得到的每個類別的權重系數與對應的位置詞向量進行融合,這個可以更加準確的表達當前字包含的位置詞全部信息,具體如下:
其中,si是融合所有標注的位置詞的輸出,即當前第i個字xi的融合詞向量。
3.根據權利要求2所述的基于標簽引導的字詞融合的命名實體識別方法,其特征在于步驟四所述的當前第i個字xi的門控單元的輸出特征向量oi表示如下:
其中,代表element-wise相乘,也就是對應元素相乘,代表向量的拼接操作;
ri=σ(W1·ci+W2·si+b)
其中W1,W2為模型訓練參數,b為偏置系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110027765.4/1.html,轉載請聲明來源鉆瓜專利網。





