[發明專利]一種用于小樣本意圖識別的文本數據優化方法在審
| 申請號: | 202210198697.2 | 申請日: | 2022-03-02 |
| 公開(公告)號: | CN114564569A | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 張建兵;劉書豪;黃書劍;戴新宇;陳家駿 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/338;G06N3/04;G06N3/08 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華;于瀚文 |
| 地址: | 210023 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 樣本 意圖 識別 文本 數據 優化 方法 | ||
1.一種用于小樣本意圖識別的文本數據優化方法,其特征在于,包括以下步驟:
步驟1,構建訓練文本數據集;
步驟2,對訓練任務按照具有的意圖數階梯式地劃分級別;
步驟3,采樣一個批次的小樣本意圖識別訓練樣本;
步驟4,在基于度量學習的元學習模型上使用采樣出的同一批次的兩個以上的任務做并行訓練;
步驟5,判斷訓練是否終止;
步驟6,結束模型訓練。
2.根據權利要求1所述的方法,其特征在于,步驟1包括:定義訓練文本數據集為S={T1,T2,...,Tn},其中Ti為真實對話場景中的第i個小樣本意圖識別任務,n為S中總的訓練任務數,i取值為1~n;
每一個小樣本意圖識別任務被定義為其中Intentij為Ti對應對話場景下的一個意圖,Ci為Ti所含有的意圖個數;
對于每個任務下的一個意圖被定義為其中queryijk為被標注為Intentij的一條對話文本,Nij為意圖Intentij所含的標注文本總數。
3.根據權利要求2所述的方法,其特征在于,步驟2包括:構建級別列表levels={L1,L2,...,LM},LM表示第M個級別;
一個訓練任務所具有的意圖數達到的最大的一個級別對應數值就是訓練任務的級別,即如果Ti所含意圖數Ci≥Ll且Ci<Ll+1,則Ti對應級別就是Ll,如果Ci≥LM則Ti對應級別就是LM;
根據每個任務Ti所含有的意圖個數將訓練文本數據集S中的所有任務劃分到不同的子集中,即構建訓練文本數據集S的劃分其中表示對應于級別LM的子集。
4.根據權利要求3所述的方法,其特征在于,步驟3包括:
步驟3-1,確定當前批次要采樣的級別Ll;
步驟3-2,在級別Ll的任務集合中采樣出一個任務Ti;
步驟3-3,在任務Ti中采樣出Ll個意圖;
步驟3-4,對于Ll個意圖,每個意圖采樣出k條對話文本;
步驟3-5,判斷是否完成本批次采樣:如果已經采樣出了級別對應批次大小個訓練任務樣本,則執行步驟3-6,否則返回步驟3-2繼續采樣;
步驟3-6,返回當前批次采樣出的訓練數據:當前批次的訓練數據D包含有個任務,每個任務包含有Ll個意圖,每個意圖都含有k條被標注為所述意圖的對話文本;
將訓練數據D拆分為支撐集Dsupport和查詢集Dquery,拆分方法為將訓練數據D下每個意圖的k條對話文本對應拆分為分別有ksupport和kquery條對話文本的兩個子集,其中滿足k=ksupport+kquery。
5.根據權利要求4所述的方法,其特征在于,步驟4中,所述基于度量學習的元學習模型包括編碼器和相似度度量函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210198697.2/1.html,轉載請聲明來源鉆瓜專利網。





