[發明專利]一種基于深度增強學習的不平衡分類方法在審
| 申請號: | 201810652374.X | 申請日: | 2018-06-22 |
| 公開(公告)號: | CN108985342A | 公開(公告)日: | 2018-12-11 |
| 發明(設計)人: | 陳瓊;戚瀟明;林恩祿 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F17/30 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 構建 智能體 神經網絡模型 學習 分類 多分類問題 動作空間 分類策略 分類建模 分類模型 分類問題 交互規則 數據環境 外部環境 樣本分類 樣本特征 二分類 回報 應用 監督 | ||
1.一種基于深度增強學習的不平衡分類方法,其特征在于,包括以下步驟:
1)構建智能體的分類任務與交互規則;
2)構建智能體的動作空間;
3)構建外部環境;
4)構建深度神經網絡模型;
5)訓練基于深度增強學習的不平衡分類模型,即用深度神經網絡模型學習Q函數。
2.根據權利要求1所述的一種基于深度增強學習的不平衡分類方法,其特征在于,在步驟1)中,構建的分類任務為:智能體依次對環境中的每一個訓練樣本分類,當分類正確時,智能體從環境獲得正回報值,否則智能體獲得負回報值;智能體的目標就是在分類任務中獲得最多的累計回報;
在不平衡分類任務中,為引導智能體學會對不平衡數據分類的策略,制定智能體與環境的交互規則:如果智能體對少數類樣本分類正確,環境給予高額的正回報值以獎勵;一旦分類錯誤,則終止當前分類任務,同時環境給予高額的負回報值以懲罰;如果智能體對多數類樣本分類正確,環境給予低額的正回報值以獎勵;如果分類錯誤,環境給予低額的負回報值以懲罰。
3.根據權利要求1所述的一種基于深度增強學習的不平衡分類方法,其特征在于,在步驟2)中,智能體的動作空間與訓練數據的類別對應,對于不平衡N=2分類問題,定義智能體的動作空間A={0,1},0和1分別代表樣本的標簽,在t時刻,智能體對每一個樣本分類,輸出動作at,at∈A。
4.根據權利要求1所述的一種基于深度增強學習的不平衡分類方法,其特征在于,在步驟3)中,構建外部環境包括如下步驟:
3-1)構建環境的狀態空間
使用訓練數據集D={<xi,yi>|i=1,2,3...}構建外部環境,定義狀態空間S為整個訓練集的樣本空間,并且每個時刻的環境狀態st唯一對應訓練集D的一個樣本xi;
3-2)設置外部環境的回報函數
對于不平衡N=2分類問題,智能體對少數類樣本分類正確時能夠獲得更多的獎勵;分類錯誤時,獲得更多的懲罰;定義訓練集中的多數類樣本集為DL,少數類樣本集為DS,訓練集樣本不平衡的比例為回報函數如下式:
其中,at為在t時刻,智能體對每一個樣本分類的輸出動作;
對于不平衡N>2分類問題,定義標簽為k的訓練樣本集為Dk,|Dk|為標簽為k的訓練樣本數量,定義類別k的不平衡比例為回報函數如下式:
在rt的表達式中,xt和yt是t時刻環境向智能體展示的樣本及其標簽,λ是常數系數,通常取“1”,當然,也能夠根據需要調整其取值;
3-3)構建外部環境的狀態轉移規則
每當新的一輪分類任務開始時,環境將訓練集的所有樣本打亂,于每個時刻向智能體展示一個待分類的訓練樣本xt;當環境接收到智能體的分類動作時,通過回報函數評價智能體的分類動作的價值,給予智能體即時回報rt并決定是否狀態轉移;
對于不平衡N=2分類問題,樣本數量少的類為少數類,另一類為多數類;對于不平衡N>2分類問題,定義數量最少的m個類為少數類,其余類為多數類;當智能體對少類樣本錯誤分類或者完成對所有樣本的分類時,終止當前分類任務、環境停止狀態轉移、重置智能體的累計回報并開始新一輪分類任務,否則,環境當前狀態轉移至下一個狀態,即向智能體展示下一個樣本xt+1。
5.根據權利要求1所述的一種基于深度增強學習的不平衡分類方法,其特征在于,在步驟4)中,根據不同的數據環境構建不同的神經網絡模型,對于文本數據,使用帶有Embedding層的深度神經網絡模型;對于圖片數據,使用帶有卷積層和池化層的深度神經網絡模型。
6.根據權利要求1所述的一種基于深度增強學習的不平衡分類方法,其特征在于,在步驟5)中,訓練基于深度增強學習的不平衡分類模型,具有如下特征:
①基于價值函數的深度增強學習算法模型;
②在訓練模型的過程中,使用驗證數據集對模型進行周期性測試,保存最佳分類模型,對于不平衡N=2分類問題,訓練過程中周期性使用驗證數據集監控正負類樣本的召回率,當正負兩類召回率接近相等時,終止訓練,保存模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810652374.X/1.html,轉載請聲明來源鉆瓜專利網。





