[發明專利]一種快速提升文本分類性能的機器學習方法和裝置在審
| 申請號: | 201910565455.0 | 申請日: | 2019-06-27 |
| 公開(公告)號: | CN110263173A | 公開(公告)日: | 2019-09-20 |
| 發明(設計)人: | 李宇峰;石鋒 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N20/10 |
| 代理公司: | 南京樂羽知行專利代理事務所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210046 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 查詢 文本分類 方法和裝置 機器學習 過濾 快速性能 模型選擇 文本樣本 主動學習 組模型 復用 樣本 更新 幫助 | ||
1.一種快速提升文本分類性能的機器學習方法,其特征在于,具體包括:
1)獲取目標文本分類數據集,所述目標文本數據集部分文本樣本具有標記;
2)獲取與目標文本分類任務相關的一組模型,這些模型性能有限;
3)通過復用已有模型選擇需要查詢的文本樣本,幫助獲得更準確的主動學習模型,節省大量的查詢代價;
4)基于分類誤差最小化的原則對已有模型的重要程度進行更新,進而更好地過濾不必要的查詢;
5)將最終的模型作為目標文本數據集上的機器學習模型。
2.如權利要求1所述的快速提升文本分類性能的機器學習方法,其特征在于,所述獲取目標數據集,包括對目標文本數據集的預處理。
3. 如權利要求2所述的快速提升文本分類性能的機器學習方法,其特征在于,所述通過復用已有模型構造出查詢文本樣本,已有的模型復用方法包括:采用Adaptive SVM實現SVM模型的復用,即通過將已有模型的權重作為正則項,指導目標任務的訓練文本樣本完成建模;采用STRUT 和SER 實現Random Forest模型的復用,即通過利用決策樹的結構信息和文本數據分布信息,指導目標任務的訓練文本樣本完成建模;采用深度學習Fine-tune技術,實現深度學習模型的復用,即凍結已有模型的部分卷積層,使用線性Logistic回歸技術訓練剩下的卷積層和全連接層實現模型復用。
4.如權利要求3所述的快速提升文本分類性能的機器學習方法,其特征在于,所述利用已有模型過濾不必要查詢的步驟為:
1)通過主動學習選擇出待查詢的文本樣本,這里查詢指通過領域專家獲得該本文樣本的標記;
2)利用已有模型計算出該文本樣本的預測自信度:
3)根據預測自信度判斷是否需要查詢;具體來說,如果預測自信度高于指定閾值,則通過已有模型給出標記;否則,則通過領域專家得到標記。
5.如權利要求4所述的快速提升文本分類性能的機器學習方法,其特征在于,所述基于有標記的文本樣本對已有模型的重要程度進行更新,也就是,提高對性能提升做出較大貢獻的已有模型的權值,與此同時,降低對性能提升缺乏貢獻的已有模型的權值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910565455.0/1.html,轉載請聲明來源鉆瓜專利網。





