[發明專利]一種基于正則化最優傳輸理論的不平衡數據分類方法在審
| 申請號: | 202110724175.7 | 申請日: | 2021-06-29 |
| 公開(公告)號: | CN113420820A | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 馬麗濤;文人慶;陳繼強;張峰;張麗娜;付俊豐;萬杰 | 申請(專利權)人: | 河北工程大學;哈爾濱工業大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 哈爾濱龍科專利代理有限公司 23206 | 代理人: | 李智慧 |
| 地址: | 056000 河北省*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 正則 最優 傳輸 理論 不平衡 數據 分類 方法 | ||
1.一種基于正則化最優傳輸理論的不平衡數據分類方法,其特征在于所述不平衡數據分類方法包括如下步驟:
步驟一:獲取不平衡訓練樣本集和測試樣本集
步驟二:針對步驟一獲取的訓練樣本集和測試樣本集,構建Monge型最優傳輸問題;
步驟三:將步驟二得到的Monge型最優傳輸問題凸松弛化為離散的Kantorovitch型最優傳輸問題;
步驟四:為步驟三得到的離散的Kantorovitch型最優傳輸問題,設計合理的非凸正則項,進而構建非凸正則最優傳輸問題;
步驟五:針對步驟四得到的非凸正則最優傳輸問題的特點,基于最大—最小化思想,設計最大—最小化最優傳輸求解算法,計算該算法模型在各數據集上的分類精度、召回率、幾何平均、F1值評價指標值,從而實現對不平衡數據集的有效分類。
2.根據權利要求1所述的基于正則化最優傳輸理論的不平衡數據分類方法,其特征在于所述步驟二中,Monge型最優傳輸問題為:
其中,μ為訓練樣本集服從Rn上的概率分布,ν為測試樣本集服從Rn上的概率分布,#為push forward算子,T為傳輸映射,Ω0為訓練樣本空間,f為代價函數。
3.根據權利要求1所述的基于正則化最優傳輸理論的不平衡數據分類方法,其特征在于所述步驟三中,凸松弛后的離散Kantorovitch型最優傳輸問題為:
其中,Π為分布μ和ν的所有聯合概率分布組成的集合,xi、yj為樣本坐標,i,j分別表示取值在0~N和0~M之間的下腳標,N為訓練樣本個數,M為測試樣本個數,γ為傳輸計劃。
4.根據權利要求1所述的基于正則化最優傳輸理論的不平衡數據分類方法,其特征在于所述步驟四中,設計的非凸正則項如下:
其中,p,q為任意實數,為lp范數的q次冪,Ic為樣本類別是c的樣本的標號集,γ(Ic,j)為矩陣γ的第j列中屬于第c類的數據構成的向量,當p=2、q=2時,Ω(γ)為凸正則項;當p=1、時Ω(γ)為非凸正則項。
5.根據權利要求1所述的基于正則化最優傳輸理論的不平衡數據分類方法,其特征在于所述步驟四中,非凸正則最優傳輸問題為:
其中,α為非負實數。
6.根據權利要求1所述的基于正則化最優傳輸理論的不平衡數據分類方法,其特征在于所述步驟五中,最大—最小化最優傳輸求解算法的具體步驟如下:
步驟(1):計算非凸正則項的最大線性近似項G,即對于固定的有其中β為常數,矩陣G的元素為:
ε為數據的擾動項,Ic為樣本類別是c的樣本的標號集,γ(Ic,j)為矩陣γ的第j列中屬于第c類的數據構成的向量;
步驟(2):構造代價矩陣C=(||xi-yj||2)+α·G,利用內點算法求解如下優化問題:
得到上述問題的最小值,即最優傳輸計劃
(3)根據得到的利用更新線性近似項G重新計算代價矩陣C,直到滿足迭代終止條件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河北工程大學;哈爾濱工業大學,未經河北工程大學;哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110724175.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種帶lightning母接口的電源適配器及充電裝置
- 下一篇:步進電機





