[發明專利]一種貝葉斯決策思想與近鄰集結合的代價敏感分類方法在審
| 申請號: | 202010466149.4 | 申請日: | 2020-05-28 |
| 公開(公告)號: | CN111783828A | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 王宇;楊浩 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N7/00;G06N20/10 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 劉莎 |
| 地址: | 211100 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 貝葉斯 決策 思想 近鄰 集結 代價 敏感 分類 方法 | ||
本發明公開了一種貝葉斯決策思想與近鄰集結合的代價敏感分類方法,通過近鄰集的特點,生成各個類的誤分代價值,得到誤分代價最小的分類結果。相比于傳統的代價敏感算法,本發明從算法本身的結構出發進行調整生成決策函數,誤分風險不單純依賴于誤分代價值,更與樣本之間的實際距離有關,對于代價值的判斷更加精確。
技術領域
本發明涉及一種貝葉斯決策思想與近鄰集結合的代價敏感分類方法,屬于機器學習分類領域。
背景技術
在很多實際應用場景中,分類錯誤會造成一定的損失(也就是代價),對于不同的誤分類結果,所需付出的代價其實是各不相同的,在這些領域中,傳統的機器學習算法只注重提高分類準確率,默認各個誤分類情況下造成的后果是一樣的,然而,在實際應用場景中,不同類型的錯分代價值相差較大,只考慮減小錯誤率可能帶來更大的損失。顯然,將不同情況下的誤分代價區分開來更具現實意義,于是提出了代價敏感的分類思想。
代價敏感學習是指在分類時考慮到各個類誤分情況下所需付出的實際代價的大小,以最小化總體誤分代價為目標的一種分類思想。代價敏感學習方法有著廣泛的應用,主要分為兩種情況,第一種是樣本類別分布不均衡的情況,在極端條件下,多數類樣本數目占比遠大于少數類,此時對于少數類的正確分類顯得更為重要,傳統的分類算法無法滿足這一需求;在第二種情況下,各個類的誤分情況所需付出的代價值差別巨大,分類結果會偏向于高誤分代價類的樣本。比如在健康診斷的情景中,將健康的人誤診為病患僅僅會多花一些時間和檢查費用,但是將病患誤診為健康的人卻會耽誤最佳治療時間,基于最小誤分代價的目標,結果會偏向于將就診的人分類為病患。
發明內容
針對代價敏感的分類場景,本發明基于距離值對KNN算法進行代價敏感性能改進,以最小化樣本誤分代價為形式化目標,提供一種貝葉斯決策思想與近鄰集結合的代價敏感分類方法(CSD-KNN算法)。結果表明,相較于傳統的KNN算法,代價敏感性能提升了63.3%。可以更好地適用于上述場景中。
本發明為解決上述技術問題采用以下技術方案:
一種貝葉斯決策思想與近鄰集結合的代價敏感分類方法,具體步驟如下:
Step 1:計算待分類數據與已分類樣本數據集中每個樣本數據之間的歐氏距離;
Step 2:找出Step1中較小的K個歐氏距離對應的樣本數據,構成待分類數據的近鄰集;
Step 3:對待分類數據的近鄰集中的樣本數據進行分類,統計每一類中的樣本數據個數;
Step 4:根據決策函數,計算Step3中每一類的決策風險值;
Step 5:按照最小誤分風險的原則,Step4中決策風險值最小的類別即為待分類數據的所屬類別。
進一步,Step4中的決策函數的表達式為:
式中,yi為Step3中第i類的決策風險值,ci為Step3中第i類誤分情況下的經驗代價值,mi為Step3中第i類中的樣本數據個數,α為控制函數變化的參數,dj為Step3中第i類中的第j個樣本與待分類數據之間的歐氏距離,w為樣本數據的維度。
本發明采用以上技術方案與現有技術相比,具有以下技術效果:
1)KNN算法本質上依賴的是樣本之間的距離值,本發明提出一種貝葉斯決策思想與近鄰集結合的代價敏感分類算法,根據樣本屬于每個類的風險值決策出最后的最優結果;
2)相比于傳統的代價敏感算法,本發明從算法本身的結構出發進行調整生成決策函數,誤分風險不單純依賴于誤分代價值,更與樣本之間的實際距離有關,對于代價值的判斷更加精確;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010466149.4/2.html,轉載請聲明來源鉆瓜專利網。





