[發明專利]基于梯度提升算法的極大規摸長尾多標簽分類方法在審
| 申請號: | 202210876028.6 | 申請日: | 2022-07-25 |
| 公開(公告)號: | CN115329846A | 公開(公告)日: | 2022-11-11 |
| 發明(設計)人: | 吳俊杰;左源;林浩;李豐志 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 北京遠大卓悅知識產權代理有限公司 11369 | 代理人: | 史霞 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 梯度 提升 算法 極大 長尾 標簽 分類 方法 | ||
1.基于梯度提升算法的極大規摸長尾多標簽分類方法,包括:
獲取大量需要進行標簽分類的原始文本數據;
采用深度學習算法對大量的原始文本數據進行一次完整的訓練,獲得不同的標簽分別對應的樣本表征,并將這次訓練的模型作為預訓練模型;
保留預訓練模型中的編碼器用以文本表征提取,而將其原有的分類器舍棄,添加多層感知機作為新的弱分類器,形成改進后的訓練模型;
采用梯度提升算法對弱分類器進行訓練,將上個弱分類器損失的殘差作為當前弱分類器的訓練目標,以提升訓練模型在尾部標簽上的精度,即基于殘差進行訓練,作為提升步;
將分類損失作為優化目標對整個訓練模型進行全網絡參數更新,作為更新步;
交替進行提升步和更新步的訓練,使模型中的弱分類器數量達到設定值,即得到成熟的訓練模型,以便能夠在極大規摸長尾數據的場景下進行精準的多標簽分類。
2.如權利要求1所述的基于梯度提升算法的極大規摸長尾多標簽分類方法,其特征在于,所述采用梯度提升算法對弱分類器進行訓練的具體過程為:
初始化一個新的弱分類器,將其加入至當前訓練模型中進行整體訓練;
計算上一個弱分類器損失的殘差,其中,損失的殘差為損失函數的負二階梯度;
基于上一個弱分類器損失的殘差對當前弱分類器進行訓練,具體為:保持來自預訓練模型的編碼器參數固定;將上一個弱分類器損失的殘差作為當前弱分類器訓練中使用的偽標簽;采用均方誤差作為優化的目標。
3.如權利要求2所述的基于梯度提升算法的極大規摸長尾多標簽分類方法,其特征在于,所述弱分類器損失的殘差的計算過程為:
獲取訓練模型在上一個弱分類器上的損失,損失函數為對數損失,表達式為:
其中,N、L分別為數據的樣本數量和標簽數量,vil為編碼器得到的樣本的每一個標簽對應的表征,Ft-1為訓練模型之前所有弱分類器的前饋函數集合,yil為標簽,取值為-1或1;
獲取損失的殘差,損失函數的負一階梯度表達式為:
損失函數的負二階梯度表達式為:
所述采用均方誤差作為優化目標,均方誤差的表達式為:
其中,ft(vil)為當前弱分類器輸出的分數,ρt為當前弱分類器結果在集成中的權重。
4.如權利要求3所述的基于梯度提升算法的極大規摸長尾多標簽分類方法,其特征在于,所述將分類損失作為優化目標中,所述分類損失為二元交叉熵損失,其表達式為:
5.如權利要求1所述的基于梯度提升算法的極大規摸長尾多標簽分類方法,其特征在于,在所述對整個訓練模型進行全網絡參數更新中,所述全網絡參數包含訓練模型的所有可學習參數,即編碼器、之前學習的所有弱分類器,當前弱分類器和每個弱分類器的權重。
6.如權利要求1所述的基于梯度提升算法的極大規摸長尾多標簽分類方法,其特征在于,當采用多層感知機作為弱分類器時,神經元數量與訓練輪數均作為訓練模型的超參數,多層感知機隱藏層的神經元數量及其訓練輪數均被降低,以保證多層感知機的表征能力足夠弱,多層感知機的可學習參數在訓練前采用隨機初始化。
7.如權利要求1所述的基于梯度提升算法的極大規摸長尾多標簽分類方法,其特征在于,訓練預訓練模型所采用的深度學習算法為AttentionXML。
8.電子設備,其特征在于,包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器執行權利要求1-7中任一項所述的方法。
9.存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時,實現權利要求1-7中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210876028.6/1.html,轉載請聲明來源鉆瓜專利網。





