[發明專利]一種基于bert+bilstm+crf并融合句型分析的查詢意圖識別方法在審
申請號: | 202110361114.9 | 申請日: | 2021-04-02 |
公開(公告)號: | CN113032568A | 公開(公告)日: | 2021-06-25 |
發明(設計)人: | 朱江;程燕;張振海 | 申請(專利權)人: | 同方知網(北京)技術有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司 |
主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06F40/295;G06F40/216;G06F40/242;G06F40/211 |
代理公司: | 北京天奇智新知識產權代理有限公司 11340 | 代理人: | 陳新勝 |
地址: | 100084 北京市海淀區清華園清華*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 基于 bert bilstm crf 融合 句型 分析 查詢 意圖 識別 方法 | ||
1.一種基于bert+bilstm+crf并融合句型分析的查詢意圖識別方法,其特征在于,所述方法包括:
A標注構建數據集,定義領域意圖,明確意圖分類、意圖詞槽,構建詞槽對應的領域術語集,收集問題集,標注問題意圖分類和詞槽信息;
B根據標注的問題和對應的意圖信息,生成句型模式,用于意圖識別模型推理階段的匹配驗證;
C基于bert+bilstm+crf構建查詢意圖識別模型。
2.如權利要求1所述的基于bert+bilstm+crf并融合句型分析的查詢意圖識別方法,其特征在于,所述步驟A種數據構建的標注包括兩種:
第一種標注形式,對數據直接標注其意圖類別和詞槽;第二種標注形式,把詞槽標簽作為一種槽位值的通用表示,替換槽位值后形成的標注。
3.如權利要求1所述的基于bert+bilstm+crf并融合句型分析的查詢意圖識別方法,其特征在于,所述步驟B種模型推理階段的匹配驗證使用兩種句型模式,第一種是槽位意圖模式,即將標注數據只保留其槽位標簽和意圖分類標簽形成的矩形模式;第二種模式依賴于依存句法分析,在句法分析結果基礎上選擇性的保留句子成分,組成句法模式。
4.如權利要求1所述的基于bert+bilstm+crf并融合句型分析的查詢意圖識別方法,其特征在于,所述步驟C中意圖識別模型由意圖分類和槽位填充組成;其中,意圖分類是對語義表達的分類任務,通過bert預訓練模型實現,編碼端為預訓練bert,將編碼特征輸出接入softmax層,預測輸入的類別概率;所述槽位填充是序列標注任務,使用bert模型把語料樣本embedding,然后輸入bilstm+crf的網絡訓練模型,使用條件隨機場CRF機制,用以約束輸出序列。
5.如權利要求1所述的基于bert+bilstm+crf并融合句型分析的查詢意圖識別方法,其特征在于,所述方法還包括意圖識別模型的推理以及對模型的預測;所述意圖識別模型的推理包括:按類訓練數據形式預測意圖,第一類訓練數據形式預測意圖,問題不做任何處理,直接輸入模型,預測槽位值的起始結束位置、詞槽名稱和問句意圖分類。
6.如權利要求5所述的基于bert+bilstm+crf并融合句型分析的查詢意圖識別方法,其特征在于,假設預測階段輸入的問句中包含模型中從未見過的槽位值,模型可給出正確的識別結果,且模型給出的結果中包含槽位值,并判定這個槽位值的類型,然后將原始問句在槽位值類型詞典中做匹配;如果不能匹配,則槽位識別錯誤或者這個槽位值沒有收錄在詞典中,模型的識別結果不能采信;如果匹配到了槽位值,但詞典匹配的結果出現多個不同的解釋,則轉入第二類訓練數據的方式;如果詞典匹配只給出了單一解釋,則將模型的識別結果轉換為第一類句型模式,并將句型模式在有訓練數據獲取到的第一類句型模式中做匹配,如果模式存在,則選擇相信模型的識別結果,將識別結果返回,如果不能匹配,不能信任模型的識別結果;則通過第二類句型模式進行匹配即第二類訓練數據的方式。
7.如權利要求6所述的基于bert+bilstm+crf并融合句型分析的查詢意圖識別方法,其特征在于,第二類訓練數據的方式是將問題中的槽位值替換為詞槽名稱,將調整后的問句輸入模型,如果模型沒有將槽位值正確識別為它的真實槽位值類型或者沒有正確的識別調整后的問句的意圖,則丟棄模型識別結果;如果對調整后的問句的各方面識別都正確,也不能直接相信識別結果,因為問句被調整過,模型識別結果必須經過更嚴格的句型模式的驗證才能被采信,因此通過第二類句型模式處理的方式對原始輸入做句法分析,形成第二類句型模式,并選擇模型識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同方知網(北京)技術有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司,未經同方知網(北京)技術有限公司;《中國學術期刊(光盤版)》電子雜志社有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110361114.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:攝像光學鏡頭
- 下一篇:一種基于bert并融合句群檢索的答案抽取方法