[發明專利]一種基于聚類的多標簽不平衡生物醫學數據分類方法有效
| 申請號: | 201611115834.2 | 申請日: | 2016-12-07 |
| 公開(公告)號: | CN106599913B | 公開(公告)日: | 2019-08-06 |
| 發明(設計)人: | 王進;卜亞楠;歐陽衛華;謝水寧;孫開偉;張登峰;王科;李智星;陳喬松;鄧欣;胡峰;雷大江 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G16H50/20 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 廖曦 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標簽 不平衡 生物醫學 數據 分類 方法 | ||
本發明涉及一種基于聚類的多標簽不平衡生物醫學數據分類方法,包括以下步驟:S101對標簽不均衡的數據根據特征相似度和標簽關聯性定義關系矩陣;S102根據關聯矩陣對數據進行聚類;S103對每個類簇中的不平衡標簽進行有方向性的增加;S104對每個類簇中的數據用多標簽分類器進行訓練學習;S105根據投票原則把每個分類器的結果進行合并,預測出標簽。本發明通過層次聚類方法對數據進行聚類,并且在聚類時考慮標簽關聯性來降低簇內標簽的不平衡性,從而提高重采樣方法生成新數據的可靠性,降低噪聲數據的概率。
技術領域
本發明涉及多標簽技術領域,尤其涉及一種基于聚類的多標簽不平衡生物醫學數據分類方法。
背景技術
多標簽學習可以稱為監督學習的一個范式。不同于二分類問題,多標簽學習允許樣本有多個類別。但也不同于多分類問題,多標簽學習允許一個對象同時屬于多個類別。對于多標簽樣本數據分類表示為某一個樣本數據含有多個標記的標簽,整個樣本數據集被標記成q維的多標簽空間,每一個數據樣本的特征向量表示為xi,標簽向量標記為di={di1,di2,…,diq},其中dir∈{0,1},1≤r≤q,表示對于每一個樣本數據,標簽存在相同的標記,1為此樣本數據含有這個標記的標簽,0為此樣本數據不含有這個標記的標簽。多標簽對于單標簽的優勢在于多標簽考慮到了標簽之間的關聯性問題,對于一條數據來說,可以被標記多個標簽屬性。目前,多標簽數據在當前的許多應用領域大量存在,比如生物醫學、文本分類、圖像分析和情感分析等。
由于數據量爆炸式的增長使數據集內部結構變得越來越復雜,數據類別分類不均導致了不平衡數據集的出現。對于多標簽二分類問題,不平衡數據集中樣本數量多的類別(本發明設其標簽值為0)在數據集中占領支配地位,直接或間接影響分類系統對樣本數量少的類別(本發明設其標簽值為1)的決策和分類。不平衡數據分類問題旨在解決類別分布不平衡對分類系統的影響,從數據和算法兩個方面提高分類系統對不平衡數據的分類能力。不平衡數據分類問題的難點在于數據不平衡導致傳統機器學習算法性能下降,這是由于大多數傳統的機器學習算法都假定數據集中不同類別基本趨于平衡,或者不同類別具有相同的錯分代價。因為,這類算法在處理復雜的多標簽不平衡數據分類問題時,構造的分類系統不能很好地擬合數據集的類別分布,進而導致了較差的分類效果。這種類別不平衡的情況廣泛存在于各個應用領域,包括醫療數據分類、石油溢出探測和欺詐檢測等等。生物醫學數據分類是多標簽不平衡數據分類的一個重要的研究點,這類數據由于數據樣本本身比較少,或者收集某些類別的樣本數據比較困難,甚至要付出高昂的成本,因而大部分數據集類別分布都不平衡。實際應用中,人們常常更關注不平衡數據集中的正類樣本,因為這類樣本分類錯誤后會產生更高的錯分代價,生物醫學數據正是如此,將疾病患者誤診為健康病例會耽誤患者的治療時間,有時甚至會付出生命的代價。目前,不平衡生物醫學數據的處理方法主要通過將數據集劃分為均衡的訓練集和不平衡的測試集,從而一定程度上克服傳統分類算法對負類的傾向性。
發明內容
有鑒于此,本發明的目的在于提供一種基于聚類的多標簽不平衡生物醫學數據分類方法,旨在解決大多數傳統分類器在多標簽不平衡生物醫學數據分類性能方面存在誤差的問題。本發明對數據進行有方向性的重采樣,對于傳統的重采樣更加具有針對性,降低產生噪聲數據的影響。
本發明的目的是通過以下技術方案來實現的,一種基于聚類的多標簽不平衡生物醫學數據分類方法,包括以下步驟:S101對標簽不均衡的數據根據特征相似度和標簽關聯性定義關聯矩陣;S102根據關聯矩陣對數據進行聚類;S103對每個類簇中的不平衡標簽進行有方向性的增加;S104對每個類簇中的數據用多標簽分類器進行訓練學習;S105根據投票原則把每個分類器的結果進行合并,預測出標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611115834.2/2.html,轉載請聲明來源鉆瓜專利網。





