[發明專利]一種基于遷移學習的絕對不平衡文本分類方法有效
| 申請號: | 201710675091.2 | 申請日: | 2017-08-09 |
| 公開(公告)號: | CN107644057B | 公開(公告)日: | 2020-03-03 |
| 發明(設計)人: | 王寶亮;么素素 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 程毓英 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 遷移 學習 絕對 不平衡 文本 分類 方法 | ||
1.一種基于遷移學習的絕對不平衡文本分類方法,包括下列步驟:
1)文本數據預處理
劃分目標領域數據與輔助領域數據,其中輔助領域數據與目標領域數據分布不同,但是相關,輔助領域中存在更為適合訓練目標領域分類模型的樣本;經過數據清洗后在目標領域數據中隨機選擇80%的數據作為目標領域訓練數據,剩余20%作為分類模型性能評估的測試數據,輔助領域全部數據均參與分類器訓練;
2)文本向量化
3)采取詞袋模型對目標領域數據進行分詞,并生成文本詞典;將每篇文獻表示為字典長度的向量,每個特征的權重利用詞頻-反文檔頻率TF-IDF進行加權;
4)級聯結構各節點分類模型訓練
采用改進的Tradaboost算法,用輔助領域數據平衡訓練集,并通過級聯結構逐漸平衡領域間權重以及不同類別樣本權重,對于不同領域不同類別的樣本采取不同的權重更新方式,改進如下:
a.目標領域數據
對目標領域數據,采取Adaboost算法的權重更新方法,目標領域權重更新因子大于1,將錯分樣本視為對分類模型訓練有益樣本,增加權重;
b.輔助領域負類樣本
對不平衡學習,目標領域數據中負類樣本數量遠多于正類樣本數量,輔助領域權重更新因子小于1,錯分樣本權重降低;
c.輔助領域正類樣本
對于輔助領域正類樣本,引入輔助領域權重恢復因子σ動態調整輔助領域權重更新因子,σ與目標領域正負類樣本分類準確率相關,當目標領域正負類分類準確率一致時,σ趨近于1,此時輔助領域權重更新因子趨近于βsrc,其中ns為輔助領域樣本數量,m為迭代次數;當目標領域正類樣本的準確率高于負類樣本的準確率時,σ<1,此時輔助領域權重更新因子降低,降低正類錯分樣本權重;當目標領域正類樣本準確率低于負類樣本準確率時,σ>1,此時輔助領域權重更新因子增加,提高正類錯分樣本權重;
5)利用級聯結構逐漸平衡數據集
除第一個節點外,每個節點都要利用上一節點訓練的分類器和樣本權重對輔助領域樣本進行篩選,對于權重小于閾值的輔助領域數據,將其視為不相關樣本進行刪除;對于正確分類的輔助領域樣本,將其視為冗余樣本進行刪除;
6)級聯結構分類模型融合
最終分類結果由所有節點的分類器加權投票得出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710675091.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文件存儲方法、裝置及系統
- 下一篇:一種數據加工處理系統





