[發明專利]一種融合神經網絡和規則的命名實體識別方法及裝置在審
| 申請號: | 202011622224.8 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112699683A | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 孟先艷;孫紹利;樊勁松 | 申請(專利權)人: | 大唐融合通信股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/126;G06N3/04 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 許靜;曹娜 |
| 地址: | 100029 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 神經網絡 規則 命名 實體 識別 方法 裝置 | ||
本發明提供一種融合神經網絡和規則的命名實體識別方法及裝置,涉及自然語言處理技術領域。所述融合神經網絡和規則的命名實體識別方法包括:構建基于雙向長短期記憶網絡?條件隨機場BiLSTM?CRF和注意力機制的命名實體識別模型,命名實體識別模型是基于目標領域的對話文本數據訓練得到的,用于識別目標領域的命名實體的模型;根據命名實體識別模型,提取待識別的目標語句的第一實體識別結果;基于命名實體識別的預設規則,提取已替換第一實體識別結果的目標語句的第二實體識別結果;融合第一實體識別結果和第二實體識別結果,獲取目標語句的命名實體識別結果。本發明的方案能夠快速而準確地識別多種命名實體類型,識別精度高。
技術領域
本發明屬于自然語言處理技術領域,尤其是涉及一種融合神經網絡和規則的命名實體識別方法及裝置。
背景技術
近年來,隨著智能技術的不斷深入和發展,推動了各個領域的智能信息化建設工作。面向廣電領域的智能客服機器人因其廣闊的市場,有著廣泛的應用,可以提高效率,減少人力資源。而在構建對話機器人中,能夠對命名實體進行準確的識別,是一項關鍵的基礎性任務,直接影響整個智能對話任務的最終結果。
目前常用的命名實體識別方法主要有基于規則和字典的方法、基于統計的方法以及和基于深度學習的方法。基于規則和字典的方法,通過人工構建規則和字典實現命名實體識別,依賴于大量人工構造的規則,代價大,可移植性不強。基于統計學習的方法,如隱馬爾可夫模型、最大熵模型、條件隨機場等,將命名實體識別看作序列標注問題,需要大量人工設計的特征,設計特征工程復雜。而隨著深度學習的發展,如循環神經網絡、卷積神經網絡等由于可以更深層次地自動獲取特征,也被廣泛應用于命名實體識別,并取得了良好的效果。
目前命名實體主要包括人名、地名、組織機構、數字、貨幣、日期等類型,但用于廣電領域相關的命名實體識別方法很少,在廣電這一特定領域中,還有很多特定類型,如業務名稱、產品名稱、故障等類型不能被識別,以及對話文本數據識別準確率低,因此,需要一種命名實體識別方法,提高識別精度。
發明內容
本發明實施例的目的在于提供一種融合神經網絡和規則的命名實體識別方法及裝置,從而解決現有技術中對話文本數據的命名實體識別精度低的問題。
為了實現上述目的,本發明的實施例提供了一種融合神經網絡和規則的命名實體識別方法,包括:
構建基于雙向長短期記憶網絡-條件隨機場BiLSTM-CRF和注意力機制的命名實體識別模型,其中,所述命名實體識別模型是基于目標領域的對話文本數據訓練得到的,用于識別所述目標領域的命名實體的模型;
根據所述命名實體識別模型,提取待識別的目標語句的第一實體識別結果;
基于命名實體識別的預設規則,提取已替換所述第一實體識別結果的所述目標語句的第二實體識別結果;
融合所述第一實體識別結果和所述第二實體識別結果,獲取所述目標語句的命名實體識別結果。
可選地,所述方法還包括:
按照以下步驟,訓練得到所述命名實體識別模型:
獲取目標領域的對話文本數據,對所述對話文本數據進行預處理;
根據預先制定的所述目標領域的命名實體類型,對預處理后的所述對話文本數據進行標注,獲得訓練語料集,所述訓練語料集包括訓練集和測試集;
構建一個基于BiLSTM-CRF和注意力機制的神經網絡模型;
利用所述訓練集對所述神經網絡模型進行訓練,以及,利用所述測試集對訓練得到的所述神經網絡模型進行驗證,獲取驗證結果;
選擇所述驗證結果中準確率最高的神經網絡模型作為所述命名實體識別模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大唐融合通信股份有限公司,未經大唐融合通信股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011622224.8/2.html,轉載請聲明來源鉆瓜專利網。





