[發明專利]一種基于特征融合的命名實體識別方法在審
| 申請號: | 201910099671.0 | 申請日: | 2019-01-31 |
| 公開(公告)號: | CN109800437A | 公開(公告)日: | 2019-05-24 |
| 發明(設計)人: | 趙青;王丹;杜金蓮;付利華;蘇航 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 命名實體 特征融合 數據預處理模塊 結合神經網絡 神經網絡模型 語義特征提取 字符特征提取 分類器模塊 計算機領域 上下文信息 概念特征 模型構建 時序記憶 實體類別 實體識別 特征構建 特征模塊 特征提取 網絡模型 文本特征 稀疏數據 概念詞 計算量 訓練集 準確率 標簽 融合 預測 | ||
一種基于特征融合的命名實體識別方法屬于計算機領域,通過兩個方面來提取和融合不同粒度的文本特征,概念特征和非概念詞特征,從而來提高命名實體識別的準確率并降低計算量。方法包括:數據預處理模塊、特征構建模塊、訓練命名實體網絡模型模塊和命名實體分類器模塊,其中特征模塊包括語義特征提取、詞特征提取、字符特征提取、特征融合四個子模塊。在本方法中結合神經網絡模型LSTM(Long Short?Term Memory)或GRU(Gated Recurrent Unit)的時序記憶特點來考慮命名實體任務的上下文信息,最后使用softmax預測實體類別標簽。在模型構建過程中,可以利用稀疏數據作為訓練集并對LSTM和GRU兩種神經網絡模型進行對比,確保本發明在實體識別任務上能取得令人滿意的效果。
技術領域
本發明屬于計算機領域,涉及一種基于特征融合的命名實體識別方法。
背景技術
近年來,隨著人工智能技術在自然語言處理(Natural Language Processing,NLP)領域的廣泛應用,人們對領域知識的探索也越來越多。命名實體識別是構成領域知識的基礎,也是至關重要的一個步驟,例如:知識圖譜構建、文本檢索、文本分類和信息抽取等領域中都需要進行命名實體識別。
命名實體識別(Named Entity Recognition,NER)可以看作是一個序列標注任務,通過提取出來的信息來查找實體并將其分為一組固定的類別。傳統NER問題的兩種主要方法是基于規則的學習方法和有監督的學習方法,其中有監督的學習方法占主導地位。基于規則學習的方法和有監督的學習方法都是假設可用的訓練數據已全部標記(即,所有包含在文檔中的實體都被標記)的前提下,在從文檔中找到候選實體的標簽序列。然而,在如今的大數據時代將充分標注的數據作為訓練集是非常耗時耗力的,并且由于大多數領域術語的特殊性,如今的命名實體識別任務還存在以下挑戰:(1)現實生活中大部分是半結構或非結構化的,并且很多信息是敘述性的,無結構信息,不適用于知識的發現和抽取;(2)領域實體本身結構復雜并且相同概念具有多種表達方法,例如在醫療領域:慢性阻塞性肺疾病可以縮寫為COPD;(3)命名實體通常是由多個詞組成,僅考慮詞特征會使語義信息割裂。基于以上問題,傳統的命名實體識別方法已經很難適用于如今的應用場景。
目前,隨著深度學習在各個領域中都優異的表現,在命名實體識別任務中的應用也越來越多,相比較傳統方法,深度學習的方法效果更好。但是深度學習結合的NER方法大多都是基于英文的,或者基于詞向量和字符向量的,而沒有考慮到概念特征。
2016年,發表在ACL,由Guillaume Lample等人所著論文“Neural Architecturesfor Named Entity Recognition”,提出了一種基于循環神經網絡(Recurrent NeuralNetwork,RNN)和條件隨機場(Conditional Random Fields,CRF)結合的命名實體識別方法,用來識別英文人名、地名等,該方法通過RNN來提取詞特征和字符特征,最后通過CRF對實體進行分類。
2017年,發表在計算機研究與發展,由楊培等人所著論文“基于注意機制的化學藥物命名實體識別”,提出了一種基于字詞特征并結合注意力機制的實體識別方法,該方法通過神經網絡LSTM(Long Short-Term Memory)來訓練實體識別分類器,并采用CRF產生最后的實體標簽分類結果。
以上的方法雖然都可以完成命名實體識別任務,但是現有命名實體識別方法都是假設沒有領域知識,特征只通過訓練集來學習,然而現實生活中,大多數領域都是具有部分領域知識的,雖然還不完善,但是這些領域知識可以幫助我們在稀疏數據中更好的識別命名實體,同時也可以在一定程度上減少由表達不一致帶來的巨大計算量。
發明內容
本發明的內容:
一種基于特征融合的命名實體識別方法,該方法包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910099671.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:問卷調查方法及系統
- 下一篇:用于生成信息的方法和裝置





