[發明專利]基于標簽引導的字詞融合的命名實體識別方法在審
| 申請號: | 202110027765.4 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112699685A | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 胡永利;于騰;孫艷豐;王博岳;尹寶才 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 標簽 引導 字詞 融合 命名 實體 識別 方法 | ||
本發明涉及一種基于標簽引導的字詞融合的命名實體識別方法,用于解決以往分詞工具不準確造成的分詞錯誤的問題。具體采用標注信息對句子的分詞結果進行分組,并對組內信息進行融合,能夠有效的獲得這個位置詞的信息;將位置詞信息與當前字的信息進行融合,增強位置詞的信息表達;采用注意力機制,對每個位置詞進行分配權重,使其更加關注正確的詞的標簽;采用Gated Mechanism來動態的權衡字特征與位置詞向量特征的比重,最后通過BiLSTM與CRF找到最優序列。本發明改善了詞邊界識別錯誤的問題,并能夠減少未登陸詞(OOV)的產生。
技術領域
本發明屬于自然語言處理領域,特別涉及命名實體識別技術和文本挖掘技術。
背景技術
命名實體識別(Named Entity Recognition,NER)旨在識別出非結構化文本序列中具有特殊含義的實體,并為這些實體分配相應的類別,比如人名、地名、組織機構名等等。由于命名實體識別在對話生成、關系抽取、知識圖譜、共指消解等任務中起著基礎支撐作用,因此命名實體識別在自然語言處理(Natural Language Processing,NLP)領域得到了廣泛的研究。
對于命名實體識別任務,常用的方法是把它作為有監督的序列標注問題來求解。一般來說,監督數據越多,模型訓練的效果就越好。但由于代價高,無法獲得大規模的標注數據。因此,人工設計特征和特定領域內的語言資源被研究者廣泛的運用于NER任務中。在新語言和新領域下開發特定的語言資源和特征的代價很大,這使得命名實體識別的研究也更具有挑戰性。
近年來,隨著計算機算力的提升和算法技術的發展,基于深度學習的模型在命名實體識別領域中得到了更加廣泛的應用。2003年Hammerton提出了LSTM模型,首次將神經網絡引入NER任務中來。Lample在2016年提出了BiLSTM-CRF的模型,并取得了較好的性能。但是由于中文不同于英文,上述NER模型應用于中文存在一些問題。中文是一種符號語言,其字與字之間蘊含了豐富的語義信息。現有的高性能命名實體識別系統主要是針對英文設計的,英文擁有明確的分割標識,首字母大寫、詞與詞之間用空格分割的特性決定了英文的信息提取比較簡單。但是中文不存在明顯的單詞邊界,無法充分利用詞的信息,因此現有的NER系統大多都是基于字符操作,然后對序列進行標記,一些科研人員決定將詞的信息也融入進去,首先采用分詞技術對句子進行分詞處理,然后同樣采用英文的方式進行模型的訓練。這種方式雖然利用了詞的信息,但是經研究發現,中文分詞系統不可避免地會產生一些錯誤的分詞,進而影響NER系統識別效果。在國內每天都會有新詞的產生,雖然使用分詞技術,但是對于新詞的產生問題無法解決。
發明內容
為了解決現有方法不適用于中文實體識別,識別率低的問題,本發明提出了一種基于標簽引導的字詞融合的命名實體識別方法。該方法首次利用標注信息對句子的分詞結果進行分組,得到當前字所在詞中的具體位置信息,將其定義為位置詞。將位置詞信息與字信息進行交互,用來學習標簽引導的詞信息與字的信息融合結果;其次,我們在信息融合之后結合了注意力機制,學習字在不同位置詞下的關注程度,使其對正確標注結果關注度較高;最后,通過使用Gated Mechanism來進行合并操作,能夠動態的權衡和決定詞向量所占的比重。該方法的提出,主要解決的問題是分詞工具分詞結果不準確,大量未登陸詞(OOV)的產生。
本發明的貢獻是通過增加位置詞信息實現了語義擴充,能夠減少分詞不準確的現象。此模型中創新點有兩點:一、利用了BIE標注法對通過分詞得到的結果進行分組,通過查找表查找每個組內詞的向量表示,這些詞向量中即包含了詞的信息又包含了標注信息。將分組后的結果再與字向量融合,能夠得到當前字中所包含的語義擴充信息。二、通過門控單元來控制字向量與位置詞向量對模型的影響程度。具體如步驟二和步驟三所示。具體技術內容如下:
步驟一:通過BERT模型對待識別的句子進行預訓練,得到句中每個字的特征向量:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110027765.4/2.html,轉載請聲明來源鉆瓜專利網。





