[發明專利]一種不平衡數據分類方法在審
| 申請號: | 201410473220.6 | 申請日: | 2014-09-17 |
| 公開(公告)號: | CN104239516A | 公開(公告)日: | 2014-12-24 |
| 發明(設計)人: | 柏文陽;姚玉姝;周嵩 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華 |
| 地址: | 210023 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 不平衡 數據 分類 方法 | ||
1.一種不平衡數據分類方法,其特征在于,包括以下步驟:?
步驟一,對于給定的有類標簽的數據集L,計算數據集L中每一個數據點和所有非同類數據點之間的距離,對每一個數據點,記錄其與非同類數據點之間的最小距離,作為該數據點的特征;類標簽不同的兩個數據點視為非同類數據點;?
步驟二,將所有數據點的特征按照遞增順序排列,選擇特征最小的前t個數據點形成訓練集T,其余的數據點組成非數據集N,t取值為2到m的自然數,其中m為數據集L中數據點的總個數;?
步驟三,采用主動學習策略進行迭代的支持向量機訓練,重復以下步驟,直到建立的分類模型中的支持向量個數在迭代中不再發生改變:?
步驟(1),對訓練集T進行支持向量機訓練,產生一個分類超平面P;?
步驟(2),用分類超平面P對所有非訓練集N分類預測;?
步驟(3),把步驟(2)中的預測結果同非訓練集N中數據點自身的類標簽比較,如果存在預測錯誤的數據點,從預測錯誤的數據點中隨機抽取一個數據點移入訓練集T,從而對訓練集T進行更新;?
步驟(4),計算非訓練集N中數據點到分類超平面P的距離,選擇離分類超平面P最近的一個數據點移入訓練集T,從而對訓練集T進行更新。?
2.根據權利要求1中所述的一種不平衡數據分類方法,其特征在于,步驟一中,使用歐式距離計算一個數據點和另一個非同類數據點之間的距離:?
給定兩個數據點R(r1,r2,...rn)和S(s1,s2,...sn),兩個數據點R和S之間的歐式距離為:?
其中,Euclidean_Dis(R,S)表示數據點R和S之間的歐式距離,ri,si分別為數據點R和S對應屬性的屬性值,i=1,2,...n,n為數據的維度。?
3.根據權利要求2中所述的一種不平衡數據分類方法,其特征在于,步驟三的步驟(1)中,支持向量機產生的分類超平面表示為:?
f(x)=ωTx+b?????????(2)?
其中,ω為分類超平面的法向量,T為矩陣轉置標號,x為數據集L中的數據點,b為常數;分類超平面通過最小化目標公式(3)(4)來求得:?
s.t.yj(ωTΦ(xj)+b)≥1,j=1,2,...,m??????????(4)?
其中,s.t.表示約束條件,xj表示數據點,yj是數據點xj的類標簽,取值為1或-1,分別代表正類和負類,Φ(xj)是當數據線性不可分時,把數據點xj從輸入空間向高維空間做的投影,m為數據集L中數據點的個數;引入拉格朗日對偶變量α(α1,α2,...,αm),α為拉格朗日對偶變量向量,α1,α2...αm為其中的元素,用拉格朗日函數把約束條件和目標函數合并:?
其中,αj是第j個數據點對應的拉格朗日對偶變量,j=1,2,...,m,令公式(5)分別對ω和b求偏導,令偏導數為0:?
代回公式(5),得:?
其中,xj和xk分別表示第j個和第k個數據點,αj和αk分別為xj和xk所對應的拉格朗日對偶變量,yj和yk為xj和xk對應的類標簽,k=1,2,...m;?
因此,求分類超平面轉為求:?
s.t.αj≥0,j=1,2,...,m???????(10)?
K(xj,xk)為徑向基核函數,αj是第j個數據對應的拉格朗日對偶變量,通過序列最小最優化算法對向量α中所有元素αj進行求解,其中j=1,2,...m,m為數據集中數據點的個數;?
序列最小最優化算法的步驟如下:?
(1a)用啟發式方法選取一對αj和αk;?
(1b)固定除αj和αk之外的其他參數,確定ω極值條件下的αj,將αk用αj表示,以此對αj和αk進行更新;?
(1c)重復步驟(1a)(1b)直至收斂,得到α;?
計算分離超平面中的ω和b值:?
其中,是指計算所有負類數據點即yj=-1的數據點xj與ωT的乘積,取乘積中的最大值,對應的,是指計算所有正類數據點即yj=1的數據點xj與ωT的乘積,取乘積中的最小值。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410473220.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據庫容災系統和數據庫容災方法
- 下一篇:嬰兒床底部滾輪安裝結構
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





