[發明專利]基于CNN和注意力機制的中文命名實體識別方法、系統及介質有效
| 申請號: | 201911150480.9 | 申請日: | 2019-11-21 |
| 公開(公告)號: | CN110969020B | 公開(公告)日: | 2022-10-11 |
| 發明(設計)人: | 黃健;趙豐;張中杰;龔建興;劉權;郝建國 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 湖南兆弘專利事務所(普通合伙) 43008 | 代理人: | 譚武藝 |
| 地址: | 410073 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 cnn 注意力 機制 中文 命名 實體 識別 方法 系統 介質 | ||
本發明公開了一種基于CNN和注意力機制的中文命名實體識別方法、系統及介質,本發明方法包括將目標文本序列傳入預先訓練好的K個中文命名實體識別CNN模型分別得到K個首部概率預測序列SP和尾部概率預測序列EP并融合,根據融合結果計算首部標簽序列S以及尾部標簽序列E,利用切片式解碼方法結合目標文本序列、首部標簽序列S以及尾部標簽序列E解碼得到目標文本序列所對應的實體集合yte。本發明通過對傳統卷積神經網絡CNN進行改造使其適應序列任務,能夠實現較強性能和較快計算速度的命名實體識別,在多個數據集上均有良好表現,能夠實現對中文文本中的命名實體進行快速準確識別。
技術領域
本發明涉及人工智能領域自然語言處理技術,具體涉及一種基于CNN和注意力機制的中文命名實體識別方法、系統及介質。
背景技術
隨著人工智能的迅捷發展和人機交互方式的快速升級,越來越需要機器能夠對自然語言進行處理和理解。命名實體識別的目標是從文本中識別出具有特定意義的實體,是自然語言處理領域的基礎任務之一。命名實體識別是主體挖掘、關系抽取、實體鏈接等任務的前置步驟,也是自動化構建知識圖譜的關鍵技術,長期以來受到了廣泛的關注。
近年來,基于神經網絡和深度學習的方法成為了進行命名實體識別的主流方法,在識別準確率上得到了較大提高。然而,現有基于詞向量的深度學習方法的性能嚴重依賴于文本分詞效果,對于專業詞、生僻詞等未收錄(Out of Vocabulary,OOV)詞匯處理效果差,當分詞錯誤時實體識別的效果也會受到很大影響;同時現有模型大多使用循環神經網絡,無法進行樣本內并行計算,計算速度較慢,很難達到工業應用要求。
發明內容
本發明要解決的技術問題:針對現有技術的上述問題,提供一種基于CNN和注意力機制的中文命名實體識別方法、系統及介質,本發明通過對傳統卷積神經網絡CNN進行改造使其適應序列任務,能夠實現較強性能和較快計算速度的命名實體識別,在多個數據集上均有良好表現,能夠實現對中文文本中的命名實體進行快速準確識別。
為了解決上述技術問題,本發明采用的技術方案為:
一種基于CNN和注意力機制的中文命名實體識別方法,實施步驟包括:
1)將目標文本序列傳入預先訓練好的K個中文命名實體識別CNN模型分別得到K個首部概率預測序列SP和尾部概率預測序列EP;所述中文命名實體識別CNN模型包含嵌入層、編碼層、注意力層和輸出層,且其中嵌入層為使用局部注意力卷積網絡的嵌入層,編碼層為基于膨脹門控線性模塊的編碼層;
2)將K個首部概率預測序列SP和尾部概率預測序列EP做均值平滑得到最終的首部概率預測序列Spte和尾部概率預測序列EPte以實現K個中文命名實體識別CNN模型的融合;
3)根據最終的首部概率預測序列SPte中各個首部概率預測結果spi計算每一個首部標簽si=argmax(spi),根據最終的尾部概率預測序列EPte中各個首部概率預測結果epi計算每一個尾部標簽ei=argmax(epi),從而得到由所有首部標簽si構成的首部標簽序列S以及由所有尾部標簽ei構成的尾部標簽序列E;
4)利用切片式解碼方法結合目標文本序列、首部標簽序列S以及尾部標簽序列E解碼得到目標文本序列所對應的實體集合yte。
可選地,步驟1)中任意一個訓練好的中文命名實體識別CNN模型得到首部概率預測序列SP和尾部概率預測序列EP的步驟包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911150480.9/2.html,轉載請聲明來源鉆瓜專利網。





