[發明專利]一種基于GRU-CRF的命名實體識別方法在審
| 申請號: | 201810102699.0 | 申請日: | 2018-02-01 |
| 公開(公告)號: | CN108460012A | 公開(公告)日: | 2018-08-28 |
| 發明(設計)人: | 謝金寶;李佰蔚;殷楠楠;謝桂英;王玉靜;王濱生 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 哈爾濱市偉晨專利代理事務所(普通合伙) 23209 | 代理人: | 陳潤明 |
| 地址: | 150080 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 命名實體 標注 實體標注 自然語言處理 大規模數據 句子特征 實體識別 網絡內部 網絡提取 網絡應用 訓練效率 應用 網絡 | ||
1.一種基于GRU-CRF的命名實體識別方法,其特征在于,包括以下步驟:
步驟(1):將語料分成訓練集和測試集;
步驟(2):對訓練集進行預處理;
步驟(3):將訓練集及測試集句子中的每個字用one-hot向量表示;
步驟(4):將由訓練集生成的字向量輸入到GRU網絡中進行特征提取;
步驟(5):結合CRF進行序列標注;
步驟(6):模型訓練;
步驟(7):模型測試。
2.根據權利要求1所述的一種基于GRU-CRF的命名實體識別方法,其特征在于,所述對語料進行預處理過程中,先使用分詞軟件對訓練集進行分詞,然后對分詞后的每一個字進行BIO標記,最后利用標記后的訓練集對word2vec進行訓練。
3.根據權利要求1所述的一種基于GRU-CRF的命名實體識別方法,其特征在于,所述GRU網絡進行特征提取中所含計算如下:
GRU的更新門公式為:
zt=σ(Uzxt+Wzst-1)
其中,zt為GRU的更新門輸出的特征向量,σ為sigmoid函數,Uz和Wz為訓練參數,xt為t時刻的字向量,st-1為xt-1對應的GRU輸出的特征向量,st為xt對應的GRU輸出的特征向量,
GRU的重置門公式為:
rt=σ(Urxt+Wrst-1)
其中,rt為GRU的重置門輸出的特征向量,Ur和Wr為訓練參數,
隱藏狀態方程為:
ht=tanh(Uhxt+Wh(st-1*rt))
其中,ht為t時刻的隱藏狀態向量,Uh和Wh為訓練參數,
xt字向量對應的輸出向量為:
st=(1-zt)*ht+zt*st-1
GRU提取句子特征的矩陣M=(S1,S2,···Sn),其中,n為句子所含字的個數。
4.根據權利要求1所述的一種基于GRU-CRF的命名實體識別方法,其特征在于,所述CRF的序列標注計算方法為:
用x=(x1,x2,···xn)表示為字個數為n的句子;用y=(y1,y2,···yn)表示句子所含字個數為n的標注序列,定義該序列的得分為:
其中,M為通過GRU網絡得到的特征向量矩陣,A為CRF的轉移矩陣,對score(x,y)進行指數化和標準化,得到標注序列的概率值p(x|y):
其中y'=(y1',y2',···yn'),為可能標注的序列。
5.根據權利要求1或4所述的一種基于GRU-CRF的命名實體識別方法,其特征在于,所述模型訓練時,使用最大條件似然估計方法,選擇使得對數似然率最大的參數,對于訓練樣本(x,y)的對數似然如下所示:
6.根據權利要求1或4所述的一種基于GRU-CRF的命名實體識別方法,其特征在于,在所述模型測試過程中,使用動態規劃的Viterbi算法進行求解:
其中為最優路徑,即為CRF輸出的標注序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810102699.0/1.html,轉載請聲明來源鉆瓜專利網。





