[發明專利]基于意圖混淆的文本分類方法、裝置、設備及存儲介質在審
| 申請號: | 202010146288.9 | 申請日: | 2020-03-05 |
| 公開(公告)號: | CN111368083A | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 阮曉義 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 劉挽瀾 |
| 地址: | 518033 廣東省深圳市福田區益田路5033號*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 意圖 混淆 文本 分類 方法 裝置 設備 存儲 介質 | ||
1.一種基于意圖混淆的文本分類方法,其特征在于,包括:
獲取待識別文本,所述待識別文本用于指示目標用戶的至少一個意圖;
調用改進的快速文本分類模型的輸入層對所述待識別文本進行識別,得到多個分詞向量;
調用所述改進的快速文本分類模型的隱藏層對所述多個分詞向量進行疊加平均,得到文檔向量;
調用所述改進的快速文本分類模型的輸出層對所述文檔向量中的多個潛在意圖進行混淆意圖識別,得到多個候選意圖標簽;
基于所述多個候選意圖標簽對所述待識別文本進行標注,得到多個分類文本。
2.根據權利要求1所述的基于意圖混淆的文本分類方法,其特征在于,所述調用所述改進的快速文本分類模型的輸出層對所述文檔向量中的多個潛在意圖進行混淆意圖識別,得到多個候選意圖標簽,包括:
將所述文檔向量輸入到改進的快速文本分類模型中進行負采樣,得到多個采樣向量;
調用層次分類器將所述多個采樣向量導入樹形結構,得到樹形分類結構;
通過標準分類器將所述樹形分類結構進行分類,得到多個潛在意圖標簽;
通過混淆層對所述多個潛在意圖標簽進行意圖混淆,得到每個潛在意圖標簽的置信度;
通過所述混淆層將每個潛在意圖標簽對應的置信度與預先設置的閾值進行比較,篩選出所述待識別文本的多個候選意圖標簽。
3.根據權利要求2所述的基于意圖混淆的文本分類方法,其特征在于,所述通過混淆層對所述多個潛在意圖標簽進行意圖混淆,得到每個潛在意圖標簽的置信度,包括:
將所述多個潛在意圖標簽輸入到改進的快速文本分類模型的混淆層中進行混淆;
獲取混淆后的每個潛在意圖標簽的置信度。
4.根據權利要求3所述的基于意圖混淆的文本分類方法,其特征在于,所述將所述多個潛在意圖標簽輸入到改進的快速文本分類模型的混淆層中進行混淆之前,所述方法還包括:
生成所述混淆層,所述混淆層位于改進的快速文本分類模型的隱藏層和輸出層之間。
5.根據權利要求4所述的基于意圖混淆的文本分類方法,其特征在于,所述生成混淆層,所述混淆層位于改進的快速文本分類模型的隱藏層和輸出層之間,包括:
建立改進的快速文本分類模型的中間層;
對預置的輸入語料按照順序進行拆分,得到多個語料標簽;
將所述多個語料標簽依次分別輸入到所述中間層進行迭代訓練;
生成每個語料標簽的置信度;
當每個語料標簽的置信度都大于閾值時,停止訓練,并將訓練后的中間層確定為所述混淆層。
6.根據權利要求1所述的基于意圖混淆的文本分類方法,其特征在于,所述調用改進的快速文本分類模型的輸入層對所述待識別文本進行識別,得到多個分詞向量,包括:
通過預置的詞袋對所述待識別文本進行識別,得到多個候選詞語;
調用預置的n元模型n-gram詞袋對所述多個候選詞語進行表征,得到每個候選詞語的n-gram特征;
將每個候選詞語的n-gram特征輸入到改進的快速文本分類模型的輸入層生成多個分詞向量,每個分詞向量對應一個候選詞語。
7.根據權利要求1-6中任一項所述的基于意圖混淆的文本分類方法,其特征在于,所述調用所述改進的快速文本分類模型的隱藏層對所述多個分詞向量進行疊加平均,得到文檔向量,包括:
將多個分詞向量按照分詞順序進行排列,得到分詞序列;
將所述分詞序列按照所述分詞順序依次輸入到改進的快速文本分類模型的隱藏層進行平均處理;
獲取所述改進的快速文本分類模型的隱藏層的輸出結果,得到文檔向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010146288.9/1.html,轉載請聲明來源鉆瓜專利網。





