[發明專利]一種小樣本意圖識別方法、裝置、設備及存儲介質在審
| 申請號: | 202111034749.4 | 申請日: | 2021-09-04 |
| 公開(公告)號: | CN113723111A | 公開(公告)日: | 2021-11-30 |
| 發明(設計)人: | 周喜;楊奉毅;馬博;王軼;王磊;趙凡 | 申請(專利權)人: | 中國科學院新疆理化技術研究所 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35;G06K9/62 |
| 代理公司: | 烏魯木齊中科新興專利事務所(普通合伙) 65106 | 代理人: | 張莉 |
| 地址: | 830011 新疆維吾爾*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 樣本 意圖 識別 方法 裝置 設備 存儲 介質 | ||
本發明公開了一種小樣本意圖識別方法、裝置、設備以及存儲介質,該方法獲取意圖識別數據集,對數據集進行處理,構建小樣本意圖識別數據集;提取句子的語義信息,將句子編碼為高維特征向量;利用輔助類中樣本之間的多樣性特征,在高維空間中生成未知樣本的多樣性特征;將生成的多樣性特征與原句子向量進行融合,獲取句子的增強特征向量,進一步得到目標意圖的原型向量表示;計算查詢句子的增強特征向量與目標類別的原型向量之間的相似度,實現對查詢句子的分類。本發明增強了模型對未知意圖樣本的特征向量表示,可以有效適應小樣本場景下的意圖識別任務,提高了小樣本意圖識別的準確率。
技術領域
本發明涉及信息技術領域中的自然語言處理領域,尤其涉及意圖識別、小樣本學習等技術領域。具體地,本發明提供一種小樣本意圖識別方法、裝置、設備以及存儲介質。
背景技術
意圖識別(Intent Detection)作為人機對話系統中的關鍵任務,其目的是根據用戶與系統交互的語句判斷出用戶的真實意圖。意圖識別作為對話系統中的第一個模塊,其識別準確率影響著后續模塊的處理。近些年來,隨著深度學習的快速發展,意圖識別任務也取得了巨大的進步,研究人員提出了一系列有效的算法,這些算法通常需要大量數據作支撐。然而,在對話系統開發的初始階段,獲取大量用戶的真實對話語料是很困難的,通常每個意圖僅有少量的數據樣例支撐,這就需要模型具有從少量樣本中學習歸納的能力。
為了解決訓練樣本不足的問題,研究人員提出了小樣本學習算法,希望利用領域外的知識和少量的標注數據去學習一個能夠對未知類別具有良好判別能力的模型。小樣本學習在圖像領域研究比較多,最近,在自然語言處理領域開始興起。通常,小樣本學習算法可以分為三類:基于度量的方法、基于優化的方法和基于數據增強的方法。基于度量的方法利用樣本之間的距離分布學習一個合適的分類器,可以更好地適應于未知類別樣本;基于優化的方法通過學習一個通用的模型初始化參數,保證參數可以在少量的幾步更新后達到比較優秀的程度;基于數據增強的方法通過在高維空間或實例空間對目標樣本進行增強,加強模型在小樣本情況下的能力。
在現有的小樣本意圖識別方法中存在以下問題:
1)在意圖識別任務中,用戶的語句通常是風格多變的,極端的樣本數量不能反映真實的樣本多樣性,限制了現有的基于度量的方法的能力;
2)自然語言不同于圖像,無法進行翻轉傾斜等數據增強操作,使用數據增強的方法在意圖識別領域效果不太理想;
為解決上述常規小樣本意圖識別方法中存在的問題,本發明提供了一種小樣本意圖識別方法、裝置、設備以及存儲介質。本發明結合了度量方法和數據增強方法兩種方法,在原型網絡的基礎上,添加了多樣性特征生成模塊,利用輔助類中樣本之間的多樣性特征,在高維空間中生成未知樣本的多樣性特征,增強了模型對未知意圖樣本的特征向量表示,可以有效適應小樣本場景下的意圖識別任務。
發明內容
本發明目的在于,提供了一種小樣本意圖識別方法、裝置、設備以及存儲介質。該方法獲取意圖識別數據集,對數據集進行處理,構建小樣本意圖識別數據集;提取句子的語義信息,將句子編碼為高維特征向量;利用輔助類中樣本之間的多樣性特征,在高維空間中生成未知樣本的多樣性特征;將生成的多樣性特征與原句子向量進行融合,獲取句子的增強特征向量,進一步得到目標意圖的原型向量表示;計算查詢句子的增強特征向量與目標類別的原型向量之間的相似度,實現對查詢句子的分類。本發明增強了模型對未知意圖樣本的特征向量表示,可以有效適應小樣本場景下的意圖識別任務,提高了小樣本意圖識別的準確率。
本發明所述的一種小樣本意圖識別方法,按下列步驟進行:
a、獲取意圖識別數據集,對數據集進行處理,構建小樣本意圖識別數據集,其中構建小樣本意圖識別數據集是將整個數據集劃分為訓練集、輔助訓練集和測試集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院新疆理化技術研究所,未經中國科學院新疆理化技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111034749.4/2.html,轉載請聲明來源鉆瓜專利網。





