[發明專利]一種用于小樣本意圖識別的文本數據優化方法在審
| 申請號: | 202210198697.2 | 申請日: | 2022-03-02 |
| 公開(公告)號: | CN114564569A | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 張建兵;劉書豪;黃書劍;戴新宇;陳家駿 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/338;G06N3/04;G06N3/08 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華;于瀚文 |
| 地址: | 210023 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 樣本 意圖 識別 文本 數據 優化 方法 | ||
本發明提供了一種用于小樣本意圖識別的文本數據優化方法,包括以下步驟:步驟1,構建訓練文本數據集;步驟2,對訓練任務按照具有的意圖數階梯式地劃分級別;步驟3,采樣一個批次的小樣本意圖識別訓練樣本;步驟4,在基于度量學習的元學習模型上使用采樣出的同一批次的兩個以上的任務做并行訓練;步驟5,判斷訓練是否終止;步驟6,結束模型訓練。本發明可以將并行化訓練元學習模型應用在現實場景中小樣本意圖識別的訓練任務意圖數不一致的情況。
技術領域
本發明屬于自然語言處理的意圖識別領域,尤其涉及一種用于小樣本意圖識別的文本數據優化方法。
背景技術
意圖識別技術(Intent Detection)是構建人機交互對話系統(Dialogue System)的 關鍵技術之一。所謂意圖識別,就是計算機程序能夠分析處理輸入的對話文本中所含的語義信息,最后判斷出其所屬的意圖類別。
在現在流行的人機對話系統平臺中,往往需要用戶自己創建新的對話任務并提供相關的標注數據。但由于數據標注成本的高昂,很多用戶無法提供大量的標注文本, 每條意圖往往只有十幾條甚至幾條樣本。這種情況下的意圖識別任務屬于小樣本意圖 識別(Few-shot Intent Detection),需要看作小樣本學習問題(Few-shot Learning)來處 理。
一般的傳統的機器學習以及深度學習方法在小數據下往往存在過擬合的現象,無法滿足使用需求。而元學習(Meta Learning)正是一種被用于解決小樣本學習問題的 機器學習方法。元學習的目標是在各種學習任務上訓練神經網絡模型,從而使模型僅 使用少量訓練樣本就可以解決新的學習任務。元學習在訓練模型時使用的各種學習任 務通常也是小樣本學習任務,這些任務在科研中往往被設置為具有相同分類類別數的 分類任務(Classification)。將元學習應用于小樣本意圖識別時,訓練階段的每個訓練 任務都是一個小樣本意圖識別任務。
然而由于在小樣本意圖識別的現實應用場景中的特殊性,每個意圖識別任務所具有的意圖數,也就是分類類別數通常是不一致的。因此將元學習應用在小樣本意圖識 別任務時,會由于訓練集中的訓練任務意圖數不同導致無法并行訓練。
目前對于使用元學習訓練時意圖識別任務意圖數不一致的問題。第一類方法是只關注于訓練任務意圖數相同的理想情況,在這種情況下可以自然地進行并行化訓練。 第二類是對于意圖數不同的訓練任務,統一采取串行的訓練方式,每一步僅訓練單個 任務。
【論文一】Model-Agnostic Meta-Learning for Fast Adaptation of DeepNetworks.
該論文中元學習使用的訓練任務是從類別數較大的分類任務的所有類別中采樣固 定個數的子類別集合而來,具有相同類別數的訓練任務可以自然地并行訓練。
【論文二】Few-shot text classification with induction network.
該論文中包含在小樣本意圖識別數據集ODIC上的實驗,其將所有訓練集中的意圖整合成一個統一的集合,每步訓練時從總的意圖集合中采樣出5個意圖作為一個訓 練任務。該方法同論文一,也可以自然地并行訓練。
【論文二】FewJoint:A Few-shot Learning Benchmark for Joint LanguageUnderstanding.
該論文的訓練數據來源于現實場景,小樣本意圖識別的訓練任務意圖總數不等,意圖數為從1到7不等。該論文使用的訓練方法是每步僅訓練單個任務的單條樣本, 是一種串行的訓練方式。
論文一代表的是研究中理想化的元學習應用場景,該場景下所有的訓練任務都具有相同的類別數。而實際場景中由于場景的差異和樣本標注成本的昂貴,能獲得的可 用于訓練的有標注任務具有的分類類別數往往是不同的。因此論文一代表的理想方案 在一些現實場景下無法使用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210198697.2/2.html,轉載請聲明來源鉆瓜專利網。





