[發明專利]一種基于聚類的多標簽不平衡生物醫學數據分類方法有效
| 申請號: | 201611115834.2 | 申請日: | 2016-12-07 |
| 公開(公告)號: | CN106599913B | 公開(公告)日: | 2019-08-06 |
| 發明(設計)人: | 王進;卜亞楠;歐陽衛華;謝水寧;孫開偉;張登峰;王科;李智星;陳喬松;鄧欣;胡峰;雷大江 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G16H50/20 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 廖曦 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標簽 不平衡 生物醫學 數據 分類 方法 | ||
1.一種基于聚類的多標簽不平衡生物醫學數據分類方法,其特征在于:包括以下步驟:
S101對標簽不均衡的數據根據特征相似度和標簽相似度定義關聯矩陣;
S102根據關聯矩陣對數據進行聚類;
S103對每個類簇中的不平衡標簽進行有方向性的增加;
S104對每個類簇中的數據用多標簽分類器進行訓練學習;
S105根據投票原則把每個分類器的結果進行合并,預測出標簽。
2.根據權利要求1所述的一種基于聚類的多標簽不平衡生物醫學數據分類方法,其特征在于:所述關聯矩陣的定義包括以下子步驟:
S1011根據傳統的歐氏距離來計算樣本數據特征之間的關聯度定義特征相似度;
S1012根據漢明距離來計算樣本數據標簽之間的關聯度定義標簽相似度;
S1013通過特征相似度和標簽相似度定義關聯矩陣,根據如下公式(1)定義計算關聯矩陣Lij;
其中,Lij表示為第i條樣本數據和第j條樣本數據在關聯矩陣中對應的值,n、p、q代表測試樣本個數,dnp表示的是第n條樣本數據與第p條樣本數據的特征相似度,ξnq表示的是第n條樣本數據與第q條樣本數據的標簽相似度,W1和W2分別表示特征相似度和標簽相似度的占有比的閾值。
3.根據權利要求2所述的一種基于聚類的多標簽不平衡生物醫學數據分類方法,其特征在于:在步驟S102中,采用層次聚類方式對數據進行聚類,當每個類簇中的標簽滿足一定結束條件時,聚類停止;結束的判斷方法為:
判斷樣本數據集的MeanIR是否大于1.5,并且樣本數據個數大于生成數據個數占有整體的一個閾值限定T2;或者x是否大于S/T2,MeanIR表示的是樣本數據的不平衡程度值,x表示某一個均衡標簽的生成數據,S表示原來該簇的大小。
4.根據權利要求3所述的一種基于聚類的多標簽不平衡生物醫學數據分類方法,其特征在于:所述步驟S103具體包括以下子步驟:
S1031根據不平衡多標簽的定義公式,對于每個數據進行判斷,判定哪些標簽為不平衡標簽,挑選出所有含有不平衡標簽的數據集,
S1032在此數據集中隨機選取一條數據,
S1033根據歐氏距離找到最近的k條數據,對數據進行重采樣;重采樣的新數據特征由k+1個樣本數據的每個特征分別求平均來產生,重采樣的新數據標簽由k+1個樣本數據的每個標簽根據多數投票原則產生。
5.根據權利要求4所述的一種基于聚類的多標簽不平衡生物醫學數據分類方法,其特征在于:對于一個新的測試樣本數據,計算測試樣本數據與每個簇類樣本特征之間的距離,把這個距離作為下一步進行投票原則的權重(W1,W2,…,Wn/2),采用投票原則對測試數據的標簽進行預測,具體步驟為:選取距離最近的前n/2個簇,把測試樣本數據集放進距離最近的前n/2個簇訓練學習的分類器中,對于每一個簇分類器輸出一個結果,根據如下公式(8)來計算測試數據每個標簽預測的值;
其中Φ(xi)表示根據每一個分類器預測出的標簽,wi為權重,i表示第i條樣本數據,n表示總共有多少個簇。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611115834.2/1.html,轉載請聲明來源鉆瓜專利網。





