[發明專利]一種智能對話意圖識別方法、系統、存儲介質及應用在審
| 申請號: | 202110006810.8 | 申請日: | 2021-01-05 |
| 公開(公告)號: | CN112765332A | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 袁貴榮 | 申請(專利權)人: | 西交思創智能科技研究院(西安)有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35;G06F16/36;G06F40/30;G06K9/62 |
| 代理公司: | 西安長和專利代理有限公司 61227 | 代理人: | 黃偉洪 |
| 地址: | 710000 陜西省西安市雁*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 對話 意圖 識別 方法 系統 存儲 介質 應用 | ||
本發明屬于智能自然語言處理技術領域,公開了一種智能對話意圖識別方法、系統、存儲介質及應用,對業務實際場景下收集文本數據進行清洗,形成語料庫,對意圖類別標注;基于進行數據清洗后的語料進行預訓練模型的pre?train;構造finetune模型,進行權重分配,與每一層transformer的輸出構造加權求和的輸出向量;將得到的加權輸出向量,接入softmax分類層,使用focalloss函數作為網絡損失函數;基于finetune模型在標注數據集上訓練,利用意圖識別模型實現對未知標簽樣本意圖的智能識別。本發明為智能對話意圖識別方法提供了一個有效、便利解決方案,具有很強的工程實用價值與應用前景。
技術領域
本發明屬于智能自然語言處理技術領域,尤其涉及一種智能對話意圖識別方法、系統、存儲介質及應用。
背景技術
目前:在互聯網時代,智能對話系統由于能夠代替人工客服的部分功能,已經廣泛應用于消費、金融等各類領域。極大的減輕了人工客服的負擔,為企業節省了大量的用人成本。意圖識別可近似等效為一種分類問題,目前,預訓練模型銜接下游任務微調(finetune)的自然語言處理策略已經廣泛應用在意圖識別、情感分析和文本分類等任務中。然而這一類策略的最終使用效果很大程度上仍取決于訓練數據集的質量,對于意圖識別而言,其業務實際數據由于用戶偏好不同、干擾因素多、語言習慣各異等原因,具有稀疏、意圖細分種類繁多與類別不平衡的特點,導致對于某些少見意圖的識別效果低下,影響整體的用戶使用效果。
通過上述分析,現有技術存在的問題及缺陷為:目前預訓練模型對圖識別容易導致對于某些少見意圖的識別效果低下,影響整體的用戶使用效果。
解決以上問題及缺陷的難度為:少見意圖造成訓練樣本集類別分布不平衡,成為訓練中的難分類樣本。如何在訓練中引導智能對話意圖識別模型加強對少見意圖樣本的識別成為難點。
解決以上問題及缺陷的意義為:真實業務場景中的對話意圖識別,往往具有一些少見意圖樣本,使得模型的泛化能力受限。實現在訓練中引導智能對話意圖識別模型加強對少見意圖樣本的識別,有利于提高智能對話意圖識別模型的泛化能力,改善用戶的使用效果。
發明內容
針對現有技術存在的問題,本發明提供了一種智能對話意圖識別方法、系統、存儲介質及應用。
本發明是這樣實現的,一種智能對話意圖識別方法,所述智能對話意圖識別方法包括:
對業務實際場景下收集文本數據進行清洗,去除表情、圖片以及停用詞,形成語料庫,對意圖類別進行標注;進行數據清洗,去除停用詞等可以使得原始數據更為純凈,有利于訓練模型。
基于進行數據清洗后的語料進行預訓練模型的pre-train;
構造finetune模型,抽取訓練好的預訓練模型中每一層transformer的輸出,接入softmax函數進行權重歸一化,進行權重分配,與每一層transformer的輸出構造加權求和的輸出向量;每一層transformer的融合,有利于模型提取多層次的信息,更加全面的進行特征提取。
將得到的加權輸出向量,接入softmax分類層,使用focalloss函數作為網絡損失函數;使用focalloss函數,有利于引導模型在訓練中加強對難分類樣本的訓練。
基于所構造完成的finetune模型在標注數據集上進行訓練,訓練完成后利用此意圖識別模型實現對未知標簽樣本意圖的智能識別。
進一步,所述預訓練模型選用electra模型。
進一步,所述權重歸一化softmax函數計算公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西交思創智能科技研究院(西安)有限公司,未經西交思創智能科技研究院(西安)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110006810.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種紡織生產混紡紗的拉伸裝置
- 下一篇:一種納布啡的制備方法及其中間體





