[發明專利]一種用于在線不平衡流數據的分類方法在審
| 申請號: | 201810732704.6 | 申請日: | 2018-07-05 |
| 公開(公告)號: | CN109101993A | 公開(公告)日: | 2018-12-28 |
| 發明(設計)人: | 胡冀;顏成鋼;彭冬亮;吳建鋒 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 浙江永鼎律師事務所 33233 | 代理人: | 雷仕榮 |
| 地址: | 310018*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 在線分類 流數據 樣本 敏感參數 標簽 分類 標簽獲取 分類問題 模型獲取 輸入參數 樣本輸入 不一致 初始化 預測 更新 | ||
本發明公開了一種用于在線不平衡流數據的分類方法,包括以下步驟:步驟S1:輸入參數并初始化在線分類器模型;步驟S2:將當前樣本輸入在線分類器模型獲取預測標簽值;步驟S3:獲取當前樣本的標簽并與步驟S2中獲取的預測標簽值相比較,如果兩者不一致,則執行步驟S4,否則,繼續輸入下一個樣本;步驟S4:根據當前樣本的標簽獲取代價敏感參數并利用代價敏感參數對權值進行更新。采用本發明技術方案,即解決了傳統在線分類方法無解解決的不平衡流數據分類問題,同時提高了分類精度。
技術領域
本發明涉及模式識別、機器學習技術領域,尤其涉及一種用于在線不平衡流數據的分類方法。
背景技術
隨著信息技術的迅猛發展,尤其是互聯網行業的廣泛應用,越來越多的領域出現了對海量高速到達的數據實時處理需求。各個行業產生的業務數據大多數情況下可以看作動態到達的流式數據,與傳統數據相比,這類數據具有動態性、無序性、無限性、突發性和體積大等特點。如何從海量的數據中挖掘有用的特征,并對每一個樣本進行實時分類變得尤為重要。
傳統的批處理式的學習方法一方面存在學習時間長、學習效率低的問題;另一方面難以針對增量數據有效地更新模型,導致難以有效地使模型適應數據中發生的概念遷移和概念演化問題。傳統的批處理模式的機器學習算法在當前大數據環境下變得越來越力不從心,而在線學習通過流式計算框架,在內存中直接對數據實時運算,為大數據的學習和分類提供了有力的工具。
最早的在線學習算法可以追溯到20世紀50年代著名的感知器算法(Perceptron);近年來,研究人員提出了在線核學習算法、最小收縮和選擇算子算法(LSASSO)、在線梯度下降法(OGD)、在線被動進取算法(PA)、信心加權算法(CW)、壓縮感知算法(CS)等。然而上述算法依然具有以下缺陷:
1.現有算法在進行在線學習時并未考慮數據的不平衡性;而現實中有很多類別不均衡問題,它是常見的,并且也是合理的,符合人們期望的;比如,在欺詐交易識別中,屬于欺詐交易的應該是很少部分,即絕大部分交易是正常的,只有極少部分的交易屬于欺詐交易。
2.現有算法對高維流數據分類精度仍需提高。
故,針對現有技術的缺陷,實有必要提出一種技術方案以解決現有技術存在的技術問題。
發明內容
鑒于現有技術的方法很難滿足目前對于不平衡流數據在線分類,本發明提供一種用于在線不平衡流數據的分類方法,通過置信加權對在線流數據進行在線特征選擇,并通過代價敏感性技術為不平衡數據設置不同權重,從而實現最小代價敏感損失的特征,即解決了傳統在線分類方法無解解決的不平衡流數據分類問題,同時提高了分類精度。
為了解決現有技術存在的技術問題,本發明的技術方案如下:
一種用于在線不平衡流數據的分類方法,其特征在于,包括以下步驟:
步驟S1:輸入參數并初始化在線分類器模型;
步驟S2:將當前樣本輸入在線分類器模型獲取預測標簽值,其中,該模型符合高斯分布N(u,∑);
步驟S3:獲取當前樣本的標簽并與步驟S2中獲取的預測標簽值相比較,如果兩者不一致,則執行步驟S4,否則,繼續輸入下一個樣本;
步驟S4:根據當前樣本的標簽獲取代價敏感參數并利用代價敏感參數對權值進行更新;
其中,所述步驟S4進一步包括以下步驟:
步驟S41:如果樣本的標簽為正,則設定代價敏感參數為C+;如果樣本的標簽為負,則設定代價敏感參數為C-;
步驟S42:根據代價敏感參數更新高斯分布的參數,也即,根據公式(1)求解KL距離最小的均值參量μt+1和協方差參量Σt+1作為更新值:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810732704.6/2.html,轉載請聲明來源鉆瓜專利網。





