[發明專利]文本分類中的小樣本學習方法在審
| 申請號: | 202011021652.5 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112115265A | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 王曉詩;趙曉芳;史驍;胡斌 | 申請(專利權)人: | 中國科學院計算技術研究所蘇州智能計算產業技術研究院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N20/00 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 陳忠輝 |
| 地址: | 215000 江蘇省蘇州市工業*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 中的 樣本 學習方法 | ||
本發明揭示了一種文本分類中的小樣本學習方法,以元學習與深度學習組合運用。具體先提出一種小樣本學習數據集的提取方法,從原始分類數據集中構造出元學習數據集,而后構造文本分類的小樣本學習模型,利用元學習數據集對組合模型進行訓練,學習類別變化的情況下模型的泛化能力,學會不同元任務中的共性部分;利用這種學習機制所得模型,在面對新的小樣本文本分類任務時,能通過對模型進行參數微調來快速完成小樣本分類任務。應用本發明技術方案,較之于傳統文本分類模型或深度學習的文本分類網絡更快更準確。
技術領域
本發明涉及一種計算機自然語言處理方法,尤其涉及小樣本情形下的文本分類學習方法。
背景技術
文本分類技術在現實生活中有廣泛的應用,文本分類模型也多種多樣,包括傳統的機器學習方法和現階段流行的深度學習方法,如fastText,TextCNN,TextRNN,Hierarchical Attention Network,Bert等。不同的分類模型有不同的側重點,但是這些模型往往需要大量的標注樣本。就目前大量的實驗和工作證明,數據量的大小直接影響學習的性能。主要原因是由于傳統的文本分類模型都是建立在具有大量的標簽數據下的有監督學習。在使用深度學習器加以訓練時,由于模型相對于樣本數量過度復雜,模型參數過多,導致無法覆蓋基本特征而產生了過擬合現象。這就導致這些模型在大量數據集的情況下效果較好,但是只有少量幾條樣本的情況下效果極差。
而往往在大多數時候,尋找數據需要花費相當多的時間,在很多實際的項目中難以找到充足的數據來完成任務。這時就需要能從小樣本數據中學習模型來解決文本分類的問題。
另外,由于小樣本學習的特殊性,需要學習到不同的類別間共性部分和類別變化的情況下模型的泛化能力,所以傳統的基于樣本與類別對的文本分類數據集不能直接應用于小樣本學習任務的訓練和測試。
發明內容
鑒于大多數場景下文本分類無法提供足量多可供訓練的標簽數據,本發明的目的旨在提出一種文本分類中的小樣本學習方法,以解決只有少量樣本下建模、完成文本分類的任務。
本發明實現上述目的的技術解決方案是:文本分類中的小樣本學習方法,其特征在于包括步驟:
S1、構建訓練集,基于元學習方法處理原始分類數據集,提取元學習的數據集;
S2、構建模型,在MAML框架下嵌套文本分類網絡,構造組合的小樣本學習模型;
S3、模型識別,對所構造的小樣本學習模型進行訓練,獲得初始化參數,而后在新的任務中進行參數微調,利用微調后的小樣本學習模型進行識別與發現。
上述文本分類中的小樣本學習方法,進一步地,步驟S1中提取元學習的數據集的方法包括步驟:
S11、輸入包含類別數量N、樣本數量K、目錄Dir,訓練集數據量Train_num、測試集數據量Test_num的原始分類數據集,基于目錄Dir整理原始分類數據集的信息;
S12、生成初始的元訓練集和初始的元測試集,選擇不相重復的訓練集類別和測試集類別,而后在所選擇的類別結果中隨機抽取N個類別;
S13、在每個類別中隨機抽取K條樣本,N*K條樣本一起構成單個元任務的子訓練集support set,在每個類別中隨機抽取1條樣本,N*1條樣本一起構成單個元任務的子測試集query set,將子測試集和子訓練集合并為一個元任務,逐次加入到元訓練集和元測試集中;
S14、循環執行對應訓練集數據量Train_num次的步驟S13,獲得終態的元訓練集,并且循環執行對應測試集數據量Test_num次的步驟13,獲得終態的元測試集;
S15、合并終態的元訓練集和元測試集,得到元學習的數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所蘇州智能計算產業技術研究院,未經中國科學院計算技術研究所蘇州智能計算產業技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011021652.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:即毀式四翼窺器
- 下一篇:一種1,3-二取代吲唑類化合物及其制備方法和應用





