[發明專利]基于意圖混淆的文本分類方法、裝置、設備及存儲介質在審
| 申請號: | 202010146288.9 | 申請日: | 2020-03-05 |
| 公開(公告)號: | CN111368083A | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 阮曉義 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 劉挽瀾 |
| 地址: | 518033 廣東省深圳市福田區益田路5033號*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 意圖 混淆 文本 分類 方法 裝置 設備 存儲 介質 | ||
本發明涉及人工智能領域,公開了基于意圖混淆的文本分類方法、裝置、設備及存儲介質,用于減少了設置關鍵詞類別的過程,并提高了模型對多個意圖的識別能力。本發明方法包括:獲取待識別文本,待識別文本用于指示目標用戶的至少一個意圖;調用改進的快速文本分類模型的輸入層對待識別文本進行識別,得到多個分詞向量;調用改進的快速文本分類模型的隱藏層對多個分詞向量進行疊加平均,得到文檔向量;調用改進的快速文本分類模型的輸出層對文檔向量中的多個潛在意圖進行混淆意圖識別,得到多個候選意圖標簽;基于多個候選意圖標簽對待識別文本進行標注,得到多個分類文本。
技術領域
本發明涉及分類算法技術領域,尤其涉及一種基于意圖混淆的文本分類方法、裝置、設備及存儲介質。
背景技術
在多輪對話系統中自然語言理解(natural language understanding,NLU)是機器從用戶身上獲取信息至關重要的一個步驟。對于文本的意圖識別是自然語言理解最常用的方法之一,但是常見的意圖識別都局限于一句話對應一個意圖,分類器將用戶的話分到事先設計好的多個分類中的某一類當中去,也就是多分類方法。而實際的情況是用戶的一句話常常表達了不止一個意圖,在這種情況下單單只識別意圖就無法滿足業務需求了。因此,對話系統需要一個可以同時識別用戶多種意圖的自然語言理解模塊,也就是要將傳統的單意圖識別擴展到多意圖識別的領域。
而多意圖識別在業界一直是一個難題,通常的方法就是使用規則匹配,其原理就是靠人工事先為所有的意圖設計關鍵詞,若一句話匹配到了多個關鍵詞就認為命中了多個意圖,但這種方式存在擴展性差、人工工作量大,情況覆蓋不全等缺點。
發明內容
本發明提供了一種基于意圖混淆的文本分類方法、裝置、設備及存儲介質,用于通過快速文本分類算法模型代替傳統的規則模型,并通過意圖混淆算法使得模型具備同時識別多個意圖的能力,減少了設置關鍵詞類別的過程,并提高了模型對多個意圖的識別能力。
本發明實施例的第一方面提供一種基于意圖混淆的文本分類方法,包括:獲取待識別文本,所述待識別文本用于指示目標用戶的至少一個意圖;調用改進的快速文本分類模型的輸入層對所述待識別文本進行識別,得到多個分詞向量;調用所述改進的快速文本分類模型的隱藏層對所述多個分詞向量進行疊加平均,得到文檔向量;調用所述改進的快速文本分類模型的輸出層對所述文檔向量中的多個潛在意圖進行混淆意圖識別,得到多個候選意圖標簽;基于所述多個候選意圖標簽對所述待識別文本進行標注,得到多個分類文本。
可選的,在本發明實施例第一方面的第一種實現方式中,所述調用所述改進的快速文本分類模型的輸出層對所述文檔向量中的多個潛在意圖進行混淆意圖識別,得到多個候選意圖標簽,包括:將所述文檔向量輸入到改進的快速文本分類模型中進行負采樣,得到多個采樣向量;調用層次分類器將所述多個采樣向量導入樹形結構,得到樹形分類結構;通過標準分類器將所述樹形分類結構進行分類,得到多個潛在意圖標簽;通過混淆層對所述多個潛在意圖標簽進行意圖混淆,得到每個潛在意圖標簽的置信度;通過所述混淆層將每個潛在意圖標簽對應的置信度與預先設置的閾值進行比較,篩選出所述待識別文本的多個候選意圖標簽。
可選的,在本發明實施例第一方面的第二種實現方式中,所述通過混淆層對所述多個潛在意圖標簽進行意圖混淆,得到每個潛在意圖標簽的置信度,包括:將所述多個潛在意圖標簽輸入到改進的快速文本分類模型的混淆層中進行混淆;獲取混淆后的每個潛在意圖標簽的置信度。
可選的,在本發明實施例第一方面的第三種實現方式中,所述將所述多個潛在意圖標簽輸入到改進的快速文本分類模型的混淆層中進行混淆之前,所述方法還包括:生成所述混淆層,所述混淆層位于改進的快速文本分類模型的隱藏層和輸出層之間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010146288.9/2.html,轉載請聲明來源鉆瓜專利網。





