[發明專利]一種基于bert+bilstm+crf并融合句型分析的查詢意圖識別方法在審
申請號: | 202110361114.9 | 申請日: | 2021-04-02 |
公開(公告)號: | CN113032568A | 公開(公告)日: | 2021-06-25 |
發明(設計)人: | 朱江;程燕;張振海 | 申請(專利權)人: | 同方知網(北京)技術有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司 |
主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06F40/295;G06F40/216;G06F40/242;G06F40/211 |
代理公司: | 北京天奇智新知識產權代理有限公司 11340 | 代理人: | 陳新勝 |
地址: | 100084 北京市海淀區清華園清華*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 基于 bert bilstm crf 融合 句型 分析 查詢 意圖 識別 方法 | ||
本發明公開了一種基于bert+bilstm+crf并融合句型分析的查詢意圖識別方法,包括:標注構建數據集,定義領域意圖,明確意圖分類、意圖詞槽,構建詞槽對應的領域術語集,收集問題集,標注問題意圖分類和詞槽信息;根據標注的問題和對應的意圖信息,生成句型模式,用于意圖識別模型推理階段的匹配驗證;基于bert+bilstm+crf構建查詢意圖識別模型。本發明融合槽位詞典匹配,句型模式分析,基于bert+bilstm+crf的槽位實體識別,基于bert的意圖分類,較好的解決了模型訓練數據與模型預測數據分布不一致時,模型錯誤識別的問題,提高了模型對用戶輸入口語化內容意圖識別的精確性。
技術領域
本發明涉及自然語言處理、人工智能技術領域,尤其涉及一種基于bert+bilstm+crf并融合句型分析的查詢意圖識別方法。
背景技術
現有所謂意圖識別實際就是自然語言理解(NLU),是自然語言處理重要任務之一。自然語言理解就是希望機器像人一樣,具備正常人的語言理解能力,通過意圖的準確識別,明確用戶需求,從而提供給用戶精準服務。
隨著深度學習的發展,以CNN、RNN、LSTM、注意力機制等深度學習算法為基礎的神經網絡模型開始廣泛應用于文本分類、意圖識別領域中,不斷取得SOTA效果。基于深度學習的意圖識別模型意圖識別率高,但識別結果卻有不可解釋性,并且模型識別率嚴重依賴訓練數據的質量。由于自然語言的復雜和多樣性,訓練模型所使用的訓練數據往往存在偏倚,與實際輸入數據分布不一致,這對模型的泛化能力提出了極大的考驗。在實際使用模型的過程中,由于訓練數據稀疏,必然存在大量模型從未見過的輸入。這時如何評價模型識別結果,能否發現模型的識別錯誤,甚至對識別結果做出適當的修正,就顯得十分重要。當輸入問句中的實體或句型結構,訓練數據中從來沒有出現過,模型可能會給出錯誤的識別結果。
綜上,在實際工程應用中,迫切需要一種意圖識別可靠、識別錯誤可干預修正的增強型意圖識別方法。
發明內容
為解決上述技術問題,本發明的目的是提供一種基于bert+bilstm+crf并融合句型分析的查詢意圖識別方法,該方法綜合多種策略以實現對單一神經網絡意圖識別結果的正確性判斷、錯誤結果適度糾正、神經網絡識別結果增強的目的,以達到精確語義識別,滿足多樣化查詢意圖的識別。
本發明的目的通過以下的技術方案來實現:
一種基于bert+bilstm+crf并融合句型分析的查詢意圖識別方法,包括以下步驟:
A標注構建數據集,定義領域意圖,明確意圖分類、意圖詞槽,構建詞槽對應的領域術語集,收集問題集,標注問題意圖分類和詞槽信息;
B根據標注的問題和對應的意圖信息,生成句型模式,用于意圖識別模型推理階段的匹配驗證;
C基于bert+bilstm+crf構建查詢意圖識別模型。
與現有技術相比,本發明的一個或多個實施例可以具有如下優點:
融合槽位詞典匹配,句型模式分析,基于bert+bilstm+crf的槽位實體識別,基于bert的意圖分類,較好的解決了模型訓練數據與模型預測數據分布不一致時,模型錯誤識別的問題,提高了模型對用戶輸入口語化內容意圖識別的精確性。融合傳統方法和深度學習算法的意圖識別方法,二者結果相互驗證,可以使精確性問題識別率更高,開放性問題識別更加貼近用戶需求。
附圖說明
圖1是本發明實施例提供的構建基于bert+bilstm+crf的查詢意圖識別模型流程圖;
圖2是本發明實施例提供的基于bert+bilstm+crf并融合句型分析的查詢意圖識別方法的全流程圖。
具體實施方式
為使本發明的目的、技術方案和優點更加清楚,下面將結合實施例及附圖對本發明作進一步詳細的描述。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同方知網(北京)技術有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司,未經同方知網(北京)技術有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110361114.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:攝像光學鏡頭
- 下一篇:一種基于bert并融合句群檢索的答案抽取方法