[發明專利]文本分類中的小樣本學習方法在審
| 申請號: | 202011021652.5 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112115265A | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 王曉詩;趙曉芳;史驍;胡斌 | 申請(專利權)人: | 中國科學院計算技術研究所蘇州智能計算產業技術研究院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N20/00 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 陳忠輝 |
| 地址: | 215000 江蘇省蘇州市工業*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 中的 樣本 學習方法 | ||
1.文本分類中的小樣本學習方法,其特征在于包括步驟:
S1、構建訓練集,基于元學習方法處理原始分類數據集,提取元學習的數據集;
S2、構建模型,在MAML框架下嵌套文本分類網絡,構造組合的小樣本學習模型;
S3、模型識別,對所構造的小樣本學習模型進行訓練,獲得初始化參數,而后在新的任務中進行參數微調,利用微調后的小樣本學習模型進行識別與發現。
2.根據權利要求1所述文本分類中的小樣本學習方法,其特征在于:步驟S1中提取元學習的數據集的方法包括步驟:
S11、輸入包含類別數量N、樣本數量K、目錄Dir,訓練集數據量Train_num、測試集數據量Test_num的原始分類數據集,基于目錄Dir整理原始分類數據集的信息;
S12、生成初始的元訓練集和初始的元測試集,選擇不相重復的訓練集類別和測試集類別,而后在所選擇的類別結果中隨機抽取N個類別;
S13、在每個類別中隨機抽取K條樣本,N*K條樣本一起構成單個元任務的子訓練集support set,在每個類別中隨機抽取1條樣本,N*1條樣本一起構成單個元任務的子測試集query set,將子測試集和子訓練集合并為一個元任務,逐次加入到元訓練集和元測試集中;
S14、循環執行對應訓練集數據量Train_num次的步驟S13,獲得終態的元訓練集,并且循環執行對應測試集數據量Test_num次的步驟13,獲得終態的元測試集;
S15、合并終態的元訓練集和元測試集,得到元學習的數據集。
3.根據權利要求1所述文本分類中的小樣本學習方法,其特征在于:步驟S2構建模型中所嵌套的文本分類網絡至少為FastText,TextCNN,TextRNN,Hierarchical AttentionNetwork,Bert中的一種。
4.根據權利要求1所述文本分類中的小樣本學習方法,其特征在于:步驟S3模型識別中包括:
訓練階段,將步驟S1所得的數據集分解為元任務,訓練小樣本學習模型在類別變化下的泛化能力,捕獲各類別文本的公共部分,學習得到初始化參數;
預測階段,面對新的類別、新的數據集時,保持已有的模型結構并構建新的學習任務,利用訓練好的小樣本學習模型和初始化參數,通過在新的學習任務中進行參數微調,利用微調后的小樣本學習模型進行識別與發現,完成分類任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所蘇州智能計算產業技術研究院,未經中國科學院計算技術研究所蘇州智能計算產業技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011021652.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:即毀式四翼窺器
- 下一篇:一種1,3-二取代吲唑類化合物及其制備方法和應用





