[發明專利]一種代價敏感模糊多核分類器在審
| 申請號: | 201810536904.4 | 申請日: | 2018-05-30 |
| 公開(公告)號: | CN108846424A | 公開(公告)日: | 2018-11-20 |
| 發明(設計)人: | 李冬冬;王喆;程陽;張靜;杜文莉 | 申請(專利權)人: | 華東理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200237 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模糊隸屬度 分類器 多核 敏感 樣本 核算 分類器模型 模糊 分類過程 分類性能 訓練樣本 正類樣本 數據集 信息熵 算法 引入 | ||
本發明公開了一種代價敏感模糊多核分類器模型,包括在訓練樣本上生成模糊隸屬度的方法,將模糊隸屬度引入多核算法的過程。該方法通過利用信息熵和代價敏感,生成一種新的模糊隸屬度,從而使分類器更加關注于正類樣本,使其在不平衡數據集上擁有更好的分類性能。本發明彌補了現有的多核分類器忽視不平衡本身的特性的缺陷,結合樣本的分布情況,從算法層面上調整不同樣本在分類過程中的重要程度,將多核算法推廣至不平衡問題中。
技術領域
本發明涉及一種代價敏感模糊多核分類器,屬于模式識別技術領域。
背景技術
不平衡的問題由于其在現實生活和科學研究的普遍性,已經成為數據挖掘和機器學習中最重要的話題之一。當我們的目標是解決一個罕見并且重要的案例時,就會出現不平衡的問題,即一個類別中的樣本數量比另外一個類別的少很多。例如,欺詐檢測,疾病診斷和訪問控制是典型的不平衡問題。在欺詐檢測中,欺詐案件只占正常業務的小部分。而且,門禁系統大多數時間處理家庭成員的請求,而陌生人的記錄很少。實際情況中,門禁系統將陌生人誤認為家庭成員比將家庭成員誤認為陌生人要嚴重得多。因此,不同階層在處理這些問題時應該給予不同的關注。了清楚地描述不平衡的問題,有大量樣本的類稱為多數類或負類,樣本數量少的類稱為少數類或正類。負類和正類樣本數量的比稱為不平衡率(IR),用來描述數據集的不平衡程度。
盡管標準算法在平衡數據集上取得了理想的效果,但它們在不平衡問題中通常會有較低的正類識別率。為了解決這個問題,有兩種最常用的技術。首先是數據層面的方法,指的是采樣方法。它在預處理階段使數據盡量平衡且獨立于特定的分類器。其次是算法層面的方法,包括閾值方法,單類學習和代價敏感的學習。不同于數據層面,算法層面的方法不改變樣本的分布,而是考慮為不平衡問題開發更合適的算法。
本發明從算法層面出發,利用多核學習(MKL)來解決不平衡的問題。MKL不是采用一個核,而是提供一種原則性的方法來整合來自不同數據源或公式的特征表示。雖然MKL在大多數情況下都具有很好的分類性能,但它并沒有考慮到不平衡問題的特性,因此在不平衡的問題中,結果仍不盡人意。為了解決這個問題,我們引入了模糊隸屬度。總的來說,在我們的工作中,模糊隸屬度是由熵和代價敏感決定的。通過這種方式,數據的分布決定了每個樣本的模糊隸屬度,反之,模糊隸屬度決定了每個樣本對分類器的貢獻。同時,在代價敏感的原則下,確定了不同類之間的模糊隸屬度關系,所以正類受到了更多的關注。這種在分類器層面調節不同訓練樣本重要性的方法,在解決不平衡問題的分類算法研究中具有重要的意義。
發明內容
技術問題:本發明提供一種能夠解決不平衡問題的多核分類算法,通過在傳統的多核分類器中引入模糊隸屬度來控制每個樣本在訓練過程中的重要程度,能夠降低對分類性能不利的樣本點的影響,并且能夠更加關注于少數類的樣本,從而提高多核分類器在不平衡問題中的分類性能。
技術方案:首先,將原始樣本數據劃分為訓練集和測試集兩部分;其次,根據新的模糊隸屬度生成方法,在原始的訓練數據上計算每個樣本的模糊隸屬度;接著,本方法基于多核學習方法,將訓練樣本通過多個核映射到不同的特征空間,每組映射后的數據由基分類器處理;同時,將模糊隸屬度引入多核框架中,然后得出訓練樣本的訓練結果。在測試步驟中,將經過映射的測試樣本代入到該模型對應的判別函數中進行識別。
本發明解決其技術問題所采用的技術方案還可以進一步細化。所述的訓練階段的第二個步驟中,新的模糊隸屬度是由訓練樣本的信息熵和代價敏感來共同決定的。實踐中,熵的計算采用近鄰方法。為了不增加模型的復雜度,在本發明中采用了無參的固定半徑近鄰算法。但實際上,可以使用任何近鄰方法,如k近鄰算法等。最后,在多核框架的選用和核方法的選取中,本發明采用了Multi-KMHKS多核算法和不同參數的徑向基核。但根據不同情況,可以使用另外的多核算法及核映射函數。
有益效果:本發明與現有技術相比,具有以下優點:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東理工大學,未經華東理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810536904.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:水質預測方法和系統
- 下一篇:基于卷積神經網絡的慕課論壇主題分類方法





