[發明專利]一種基于GRU-CRF的命名實體識別方法在審
| 申請號: | 201810102699.0 | 申請日: | 2018-02-01 |
| 公開(公告)號: | CN108460012A | 公開(公告)日: | 2018-08-28 |
| 發明(設計)人: | 謝金寶;李佰蔚;殷楠楠;謝桂英;王玉靜;王濱生 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 哈爾濱市偉晨專利代理事務所(普通合伙) 23209 | 代理人: | 陳潤明 |
| 地址: | 150080 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 命名實體 標注 實體標注 自然語言處理 大規模數據 句子特征 實體識別 網絡內部 網絡提取 網絡應用 訓練效率 應用 網絡 | ||
本發明公開了一種基于GRU?CRF的命名實體識別方法,屬于自然語言處理領域。為了進一步提高命名實體識別的識別效果,本發明將GRU網絡與CRF相結合,利用GRU網絡提取句子特征,再結合CRF進行最后的實體標注來完成命名實體識別。GRU具有參數少,訓練速度快等特點,減少了對大規模數據進行訓練時所用的時間,CRF對一個位置進行標注的過程中可以利用到已經標注的信息,具有很好的實體標注效果。本發明將GRU網絡應用于命名實體識別領域,在達到標注效果的基礎上減少了網絡內部的參數,提高了訓練效率,具有很好的應用前景,可以廣泛應用于各領域的實體識別場合。
技術領域
本發明涉及自然語言處理,尤其涉及一種基于GRU-CRF的命名實體識別方法。
背景技術
隨著互聯網技術的快速發展,人類已經習慣從網絡上獲取大量知識,因此,命名實體識別 方法的研究作為提高人們從網絡獲取和發現新知識的方法,得到了廣泛的關注。命名實體識別 是自然語言處理領域中的一項基本任務,也是是自然語言處理領域中的研究熱點,從早期基 于詞典和規則的方法到傳統機器學習的方法,再到近年來基于深度學習的方法,識別效果不 斷在提高。條件隨機場(Conditional Random Field,CRF)是近幾年自然語言處理領域常用于 命名實體識別的算法,選用具有人工定義的一些特征函數作為特征模板來進行命名實體識別 研究,對于句子中的給定位置來說,不同的特征模板之間可以進行組合來形成一個新的特征 模板。利用特征模板進行句子標注,但CRF對于命名實體識別具有局限性,整體效果不是很 理想。循環神經網絡(Recurrent Neural Networks,RNN)已經在眾多自然語言處理中取得了 廣泛應用,但RNN在訓練中很容易發生梯度消失問題,這導致訓練時梯度不能在較長序列中 一直傳遞下去,使RNN無法捕捉到長距離的影響。長短期記憶網絡(Long Short-TermMemory, LSTM)解決了長距離信息丟失的影響,具有很好的效果,但由于LSTM結構相對復雜,導致需 要大量的學習時間,因此,目前急需一種既可以解決梯度消失問題,又有較短學習時間的神 經網絡模型,2014年由Kyunghyun Cho等學者提出了門限遞歸網絡循環神經網絡(Gated Recurrent Unit,GRU),它將LSTM的忘記門和輸入門合成了一個單一的更新門,其既保留了 LSTM算法的優點,又能簡化LSTM的算法,大大減少了網絡學習時間,但目前并沒有將GRU 與CRF相結合應用于實體命名的相關專利。
發明內容
針對以上命名實體識別方法中存在的問題,本發明利用GRU神經網絡與條件隨機場CRF 相結合,提出一種基于GRU-CRF的命名實體識別方法。
一種基于GRU-CRF的命名實體識別方法,包括以下步驟:
步驟(1):將語料分成訓練集和測試集;
步驟(2):對訓練集進行預處理;
步驟(3):將訓練集及測試集句子中的每個字用one-hot向量表示;
步驟(4):將由訓練集生成的字向量輸入到GRU網絡中進行特征提取;
步驟(5):結合CRF進行序列標注;
步驟(6):模型訓練;
步驟(7):模型測試。
所述對語料進行預處理過程中,先使用分詞軟件對訓練集進行分詞,然后對分詞后的每 一個字進行BIO標記,最后利用標記后的訓練集對word2vec進行訓練。
所述GRU網絡進行特征提取中所含計算如下:
GRU的更新門公式為:
zt=σ(Uzxt+Wzst-1)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810102699.0/2.html,轉載請聲明來源鉆瓜專利網。





