[發(fā)明專利]一種面向變分布數(shù)據(jù)流的在線分類方法有效
| 申請?zhí)枺?/td> | 202011455187.6 | 申請日: | 2020-12-10 |
| 公開(公告)號: | CN112528111B | 公開(公告)日: | 2023-10-20 |
| 發(fā)明(設(shè)計)人: | 尹宏鵬;周瀚;廖城霖;鐘錦濤 | 申請(專利權(quán))人: | 重慶大學(xué) |
| 主分類號: | G06F16/906 | 分類號: | G06F16/906 |
| 代理公司: | 北京同恒源知識產(chǎn)權(quán)代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400044 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 分布 數(shù)據(jù)流 在線 分類 方法 | ||
本發(fā)明涉及一種面向變分布數(shù)據(jù)流的在線分類方法,屬于計算機技術(shù)領(lǐng)域。該方法包括以下步驟:步驟一:離線訓(xùn)練階段;步驟二:在線訓(xùn)練階段;步驟三:在線測試階段;現(xiàn)有的面向數(shù)據(jù)流的在線分類算法沒有考慮到實際動態(tài)數(shù)據(jù)流環(huán)境中分布變化現(xiàn)象。而本發(fā)明的公開的在線分類方法,可以自適應(yīng)學(xué)習(xí)數(shù)據(jù)流分布的變化,以應(yīng)對不斷演變的動態(tài)環(huán)境,具有更重要的實用價值。
技術(shù)領(lǐng)域
本發(fā)明屬于計算機技術(shù)領(lǐng)域,涉及一種面向變分布數(shù)據(jù)流的在線分類方法。
背景技術(shù)
現(xiàn)階段,各領(lǐng)域的數(shù)據(jù)以快速、實時、連續(xù)的形式不斷產(chǎn)生,形成數(shù)據(jù)流。數(shù)據(jù)流中往往蘊含著豐富的知識。研究面向數(shù)據(jù)流的數(shù)據(jù)挖掘方法,從中發(fā)現(xiàn)隱藏的、有價值的信息,可為科學(xué)評判提供決策支持,進而產(chǎn)生更大的社會價值。
分類作為數(shù)據(jù)挖掘的核心任務(wù)之一,受到了學(xué)者廣泛關(guān)注。傳統(tǒng)的分類算法,例如支持向量機(Support Vector Machine,SVM)、K近鄰分類器(K-nearest-neighbor,KNN)、神經(jīng)網(wǎng)絡(luò)(Neural Networks,NN)等,只能處理靜態(tài)數(shù)據(jù),不適用于現(xiàn)有的數(shù)據(jù)流環(huán)境。有鑒于此,部分學(xué)者也提出不少在線分類算法,例如在線支持向量機(Online SVM)、在線被動攻擊算法(Online Passive Aggressive,PA)等。這些方法通過增量式學(xué)習(xí)的方式,以應(yīng)對源源不斷到來的數(shù)據(jù),然而這些方法往往假設(shè)數(shù)據(jù)是獨立同分布的。事實上,在真實的環(huán)境中,數(shù)據(jù)分布會隨著時間而發(fā)生改變,即具有動態(tài)變分布的特性。因此,現(xiàn)有的分類技術(shù)應(yīng)具有自適應(yīng)學(xué)習(xí)新數(shù)據(jù)的能力,以適應(yīng)不斷變化的、不確定的動態(tài)環(huán)境,從而從數(shù)據(jù)流中挖掘出有價值的知識。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種面向變分布數(shù)據(jù)流的在線分類方法。本方法自適應(yīng)學(xué)習(xí)數(shù)據(jù)流分布變化,以應(yīng)對不斷演變的動態(tài)環(huán)境,為決策支持提供重要的依據(jù)。
為達到上述目的,本發(fā)明提供如下技術(shù)方案:
一種面向變分布數(shù)據(jù)流的在線分類方法,該方法包括以下步驟:
步驟一:離線訓(xùn)練階段;利用歷史數(shù)據(jù)流的標(biāo)簽數(shù)據(jù)訓(xùn)練一個離線分類器,記為Γh;
步驟二:在線訓(xùn)練階段;若有新的訓(xùn)練標(biāo)簽數(shù)據(jù)批次,則進入在線訓(xùn)練階段,調(diào)整新數(shù)據(jù)分布并學(xué)習(xí)在線分類器,記為Γn;
步驟三:在線測試階段;若有無標(biāo)簽測試數(shù)據(jù)到來,則綜合離線分類器Γh與在線分類器Γn形成集成分類器Γ預(yù)測該數(shù)據(jù)標(biāo)簽。
可選的,所述步驟一具體為:
S1.1:將歷史流數(shù)據(jù)Xh切割為兩段,記為舊歷史數(shù)據(jù)與新歷史數(shù)據(jù);
S1.2:調(diào)整舊歷史數(shù)據(jù)與新歷史數(shù)據(jù)分布,使其條件概率分布一致,其數(shù)學(xué)表示如下:
其中,表示舊歷史數(shù)據(jù)中屬于k類樣本的平均值,表示新歷史數(shù)據(jù)中屬于k類樣本的平均值;對上述方程求解得:
利用分布變換矩陣A調(diào)整新歷史數(shù)據(jù)分布使其與舊歷史數(shù)據(jù)分布一致,即
S1.3:利用歷史數(shù)據(jù)與訓(xùn)練出離線分類器Γh。
可選的,所述步驟二具體為:
S2.1:利用離線分類器Γh初始化在線分類器Γn;
S2.2:初始化離線分類器Γh與在線分類器Γn的權(quán)重μ與ν;
S2.3:若在t+1時刻有新的訓(xùn)練數(shù)據(jù)批次更新分布變換矩陣A:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶大學(xué),未經(jīng)重慶大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011455187.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 編碼裝置,編碼方法,程序和記錄媒體
- 網(wǎng)絡(luò)數(shù)據(jù)流識別系統(tǒng)及方法
- 一種數(shù)據(jù)流調(diào)度的方法、設(shè)備和系統(tǒng)
- 一種確定待清洗數(shù)據(jù)流的方法及裝置
- 用于分析儀器化軟件的數(shù)據(jù)流處理語言
- 用于數(shù)據(jù)流系統(tǒng)的數(shù)據(jù)流處理方法及裝置
- 數(shù)據(jù)流調(diào)度系統(tǒng)以及數(shù)據(jù)流調(diào)度方法
- 采用向量處理的同時分割
- 汽車數(shù)據(jù)流的監(jiān)控方法、系統(tǒng)及可讀存儲介質(zhì)
- 一種數(shù)據(jù)流類型識別模型更新方法及相關(guān)設(shè)備
- 用于呈現(xiàn)在線實體在線狀態(tài)的系統(tǒng)和方法
- 提供web服務(wù)接入的在線系統(tǒng)和方法
- 定制在線圖標(biāo)
- 一種水質(zhì)在線檢測預(yù)處理裝置
- 在線測試學(xué)習(xí)方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)
- 一種在線文檔的分頁方法、裝置、設(shè)備以及可讀介質(zhì)
- 一種基于web在線學(xué)習(xí)的資源訪問平臺
- 一種在線學(xué)習(xí)系統(tǒng)
- 在線文檔提交方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 空調(diào)冷媒量確定方法、系統(tǒng)和可讀存儲介質(zhì)





