[發(fā)明專利]一種多標簽不平衡數(shù)據(jù)分類的機器學習方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202210309385.4 | 申請日: | 2022-03-25 |
| 公開(公告)號: | CN114612914A | 公開(公告)日: | 2022-06-10 |
| 發(fā)明(設計)人: | 段繼聰;于化龍;段寶敏;姜元昊 | 申請(專利權)人: | 江蘇科技大學 |
| 主分類號: | G06V30/40 | 分類號: | G06V30/40;G06K9/62;G06N20/00 |
| 代理公司: | 南京正聯(lián)知識產(chǎn)權代理有限公司 32243 | 代理人: | 胡定華 |
| 地址: | 212008*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 標簽 不平衡 數(shù)據(jù) 分類 機器 學習方法 系統(tǒng) | ||
本發(fā)明提供一種多標簽不平衡數(shù)據(jù)分類的機器學習方法及系統(tǒng),所述基于二重高階策略及進化計算采樣方法的多標簽不平衡數(shù)據(jù)分類的機器學習的構建方法及系統(tǒng)混合使用特征型、標簽型高階策略擴展多標簽不平衡數(shù)據(jù);融合進化計算方法,給出了多標簽數(shù)據(jù)集的種群均衡適應度的計算方法,并據(jù)此在高維復疊空間中依據(jù)標簽平均不平衡率IRLbl(P)的變化情況實現(xiàn)動態(tài)降采樣操作;將多標簽問題轉化為傳統(tǒng)分類問題,使傳統(tǒng)的分類器以二重高階策略的方式直接參與到多標簽分類中來。本發(fā)明可使傳統(tǒng)的多類分類器以考慮標簽關系的方式直接參與到多標簽不平衡分類中來,并有效提升算法的多標簽評估指標F?measure的值。
技術領域
本發(fā)明涉及人工智能-機器學習算法設計技術領域,具體涉及一種多標簽不平衡數(shù)據(jù)分類的機器學習方法及系統(tǒng)。
背景技術
隨著人工智能技術的發(fā)展,機器學習算法的設計也逐步向實用化、集成化、精細化方向發(fā)展,作為一種機器學習算法,多標簽分類算法的應用也越來越廣泛,然而,傳統(tǒng)的多標簽分類算法普遍采用低階策略,完全不考慮各標簽之間的關系,忽略關鍵學習信息,并且對標簽的不平衡分布,導致多標簽算法預測精度不高、魯棒性差,為了提升算法整體的預測精度和魯棒性,需要讓多標簽分類算法采用考慮標簽間關系的高階策略,以及具備處理不平衡數(shù)據(jù)的能力等設計都在系統(tǒng)的統(tǒng)一調配下緊密配合、共同協(xié)作。
綜上所述,現(xiàn)代機器學習多標簽分類算法的設計對于標簽間關系的考慮、高階策略的選取、精度和魯棒性的提升尚缺乏有效的解決辦法。
因此,有必要提供一種多標簽不平衡數(shù)據(jù)分類的機器學習方法及系統(tǒng)的構建方法及系統(tǒng)以解決上述技術問題。
發(fā)明內容
本發(fā)明的目的在于一種多標簽不平衡數(shù)據(jù)分類的機器學習方法及系統(tǒng),以解決現(xiàn)有技術中導致缺陷。
為達到上述目的,本發(fā)明是采用下述技術方案實現(xiàn)的:一種多標簽不平衡數(shù)據(jù)分類的機器學習方法,包括以下步驟,
S1:根據(jù)多標簽數(shù)據(jù)集的特點進行多次迭代,最終擴散至標簽數(shù)據(jù)集的特征中;
S2:根據(jù)多標簽數(shù)據(jù)集的種群均衡適應度進行動態(tài)降采樣操作;
S3:根據(jù)多標簽數(shù)據(jù)集的標簽分布情況按特征聚類并形成標簽類簇,同時在聚類之前記錄標簽序號;
S4:控制各標簽類簇的最大規(guī)模,所有類簇都滿足不超過3個標簽的條件;
S5:將所有類簇中的多標簽分布轉化為多類別分布并轉化為多個多分類數(shù)據(jù)集;
S6:調用傳統(tǒng)的多類不平衡分類器,對轉化得來的多類數(shù)據(jù)集進行分別學習和預測,得到預測的多類分類結果;
S7:將預測的多類分類結果重新轉換為多標簽分布結果,經(jīng)轉換還原原標簽集順序;
S8:利用Macro-F1和Micro-F1指標評價預測結果。在計算Macro-F和Micro-F值之前,按照如下公式計算準確率Precision和召回率Recall:
其中,TP、True Positive真陽性:預測為正,實際也為正FP、False Positive假陽性:預測為正,實際為負FN、False Negative假陰性:預測與負、實際為正TN、True Negative真陰性:預測為負、實際也為負。
所述S4為:當標簽的類簇超過3個,對類簇進行多次聚類,重新拆分為多個類簇,直至所得的全部類簇規(guī)模都不超過3個標簽。
所述S6中傳統(tǒng)的多類分類器應滿足要求為:所選擇的多類分類器在處理有不平衡問題時,能有效地對至少5類分類問題進行有效區(qū)分;所選擇的多類分類器,處理上述任務時,所需時間盡量少,算法時間復雜度低于O(n3)。
所述S1包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇科技大學,未經(jīng)江蘇科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210309385.4/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:多輸出升壓整流電路
- 下一篇:復合微球及其制備方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





