[發(fā)明專利]基于歷史分類器二次學(xué)習(xí)的數(shù)據(jù)流分類方法在審
| 申請(qǐng)?zhí)枺?/td> | 201811599198.4 | 申請(qǐng)日: | 2018-12-26 |
| 公開(kāi)(公告)號(hào): | CN109447188A | 公開(kāi)(公告)日: | 2019-03-08 |
| 發(fā)明(設(shè)計(jì))人: | 劉若辰;張澤桐;焦李成;劉靜;慕彩虹;張向榮 | 申請(qǐng)(專利權(quán))人: | 西安電子科技大學(xué) |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62 |
| 代理公司: | 陜西電子工業(yè)專利中心 61205 | 代理人: | 陳宏社;王品華 |
| 地址: | 710071 陜*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分類器 數(shù)據(jù)流分類 待分類數(shù)據(jù) 歷史信息 存檔 動(dòng)態(tài)數(shù)據(jù)環(huán)境 分類結(jié)果 訓(xùn)練數(shù)據(jù) 學(xué)習(xí) 構(gòu)建分類器 集成分類器 分類數(shù)據(jù) 用戶輸出 分類 構(gòu)建 更新 糾正 | ||
本發(fā)明提出了一種基于歷史分類器二次學(xué)習(xí)的數(shù)據(jù)流分類方法,旨在通過(guò)歷史分類器的二次學(xué)習(xí)有效利用歷史信息,提高動(dòng)態(tài)數(shù)據(jù)環(huán)境下數(shù)據(jù)流分類的精度,包括如下步驟:獲取訓(xùn)練數(shù)據(jù)和待分類數(shù)據(jù);獲取分類器;判斷存檔內(nèi)存入的分類器數(shù)量是否滿足要求;對(duì)存檔中的分類器進(jìn)行更新;對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分類;對(duì)歷史分類器進(jìn)行二次學(xué)習(xí),并構(gòu)建分類器集成;對(duì)待分類數(shù)據(jù)進(jìn)行分類;獲取t=m+1以后的待分類數(shù)據(jù)的分類結(jié)果;向用戶輸出待分類數(shù)據(jù)的分類結(jié)果。本發(fā)明在構(gòu)建集成分類器時(shí),通過(guò)對(duì)存檔中歷史存入的分類器進(jìn)行二次學(xué)習(xí),對(duì)歷史信息進(jìn)行糾正,從而有效的利用歷史信息,提高動(dòng)態(tài)數(shù)據(jù)環(huán)境下數(shù)據(jù)流分類的精度。
技術(shù)領(lǐng)域
本發(fā)明屬于智能信息處理技術(shù)領(lǐng)域,特別涉及一種基于歷史分類器二次學(xué)習(xí)的數(shù)據(jù)流分類方法,可用于天氣預(yù)報(bào)、點(diǎn)擊預(yù)測(cè)、網(wǎng)絡(luò)數(shù)據(jù)處理和傳感器網(wǎng)絡(luò)監(jiān)控等方面。
背景技術(shù)
數(shù)據(jù)流指以高速傳輸?shù)囊?guī)模巨大的數(shù)據(jù)序列,并只能以事先規(guī)定好的順序被讀取。在天氣預(yù)報(bào)、點(diǎn)擊預(yù)測(cè)、網(wǎng)絡(luò)數(shù)據(jù)處理和傳感器網(wǎng)絡(luò)監(jiān)控等應(yīng)用中,工作人員需要對(duì)數(shù)據(jù)流中的數(shù)據(jù)進(jìn)行分類,但是,由于數(shù)據(jù)流通常以非常高的速度傳輸,對(duì)數(shù)據(jù)流數(shù)據(jù)的計(jì)算、存儲(chǔ)都將變得很困難,通常只有在數(shù)據(jù)最初到達(dá)時(shí)有機(jī)會(huì)對(duì)其進(jìn)行一次處理,其他時(shí)候很難再存取到這些數(shù)據(jù)。此外,在動(dòng)態(tài)數(shù)據(jù)環(huán)境下,數(shù)據(jù)流產(chǎn)生的數(shù)據(jù)是不穩(wěn)定的,存在數(shù)據(jù)分布隨時(shí)間改變的現(xiàn)象,即所謂的概念漂移。在處理動(dòng)態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流分類問(wèn)題時(shí),如何保存歷史信息、如何使用歷史信息以及如何維護(hù)歷史信息都會(huì)影響數(shù)據(jù)流分類的精度。
動(dòng)態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流分類方法主要分為基于窗口的數(shù)據(jù)流分類方法、基于概念漂移檢測(cè)的數(shù)據(jù)流分類方法和基于分類器集成學(xué)習(xí)的數(shù)據(jù)流分類方法。
基于窗口的數(shù)據(jù)流分類方法通過(guò)選擇學(xué)習(xí)算法的訓(xùn)練數(shù)據(jù)來(lái)提供簡(jiǎn)單的遺忘機(jī)制,從而消除那些來(lái)自舊概念分布的樣本。但是,由于窗口大小及一些參數(shù)選擇的限制,導(dǎo)致該方法無(wú)法同時(shí)應(yīng)對(duì)多種頻率的概念漂移,導(dǎo)致數(shù)據(jù)流分類的精度降低。而在基于概念漂移檢測(cè)的數(shù)據(jù)流分類方法中,算法需要對(duì)概念漂移進(jìn)行檢測(cè),當(dāng)算法檢測(cè)到數(shù)據(jù)流中發(fā)生概念漂移時(shí),算法做出反應(yīng),重新構(gòu)建或調(diào)整分類器,應(yīng)對(duì)概念漂移。概念漂移檢測(cè)的效率限制該方法無(wú)法同時(shí)應(yīng)對(duì)多種頻率的概念漂移,同樣導(dǎo)致數(shù)據(jù)流分類的精度降低。
基于分類器集成學(xué)習(xí)的數(shù)據(jù)流分類方法是在數(shù)據(jù)流分類中最流行的方法,該方法通過(guò)將保存的歷史分類器與新訓(xùn)練的分類器進(jìn)行集成,歷史分類器保存了數(shù)據(jù)流的歷史信息,通過(guò)利用歷史信息,保證數(shù)據(jù)流分類的精度。但現(xiàn)有的方法多數(shù)采用盲目學(xué)習(xí)的方法,不能有效的利用歷史信息,降低了數(shù)據(jù)流分類的精度。
為了提高數(shù)據(jù)流分類的精度,Ke Tang等人在其發(fā)表的論文“Concept DriftAdaptation by Exploiting Historical Knowledge”(IEEE Transactions on NeuralNetworks and Learning Systems,2018)中,公開(kāi)了一種名為DTEL的動(dòng)態(tài)數(shù)據(jù)環(huán)境下的數(shù)據(jù)流分類方法。該方法首先對(duì)數(shù)據(jù)流進(jìn)行分塊,其次,訓(xùn)練適量的分類器放入存檔,然后,對(duì)存檔中的分類器進(jìn)行適應(yīng)操作,并將進(jìn)行適應(yīng)操作后的分類器加權(quán)集成,最后,通過(guò)該集成對(duì)數(shù)據(jù)流中的數(shù)據(jù)進(jìn)行分類。該方法首先提出了以基于多樣性的方法維護(hù)歷史信息,提升了對(duì)歷史信息利用的效率,但其沒(méi)有對(duì)錯(cuò)誤的歷史信息進(jìn)行矯正,使用了含有錯(cuò)誤信息的歷史信息,導(dǎo)致數(shù)據(jù)流分類的精度受到一定程度影響。
發(fā)明內(nèi)容
本發(fā)明的目的在克服已有技術(shù)存在的不足,提出一種基于歷史分類器二次學(xué)習(xí)的數(shù)據(jù)流分類方法,旨在通過(guò)有效利用歷史信息,提高動(dòng)態(tài)數(shù)據(jù)環(huán)境下數(shù)據(jù)流分類的精度。
為實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案包括如下步驟:
(1)獲取訓(xùn)練數(shù)據(jù)和待分類數(shù)據(jù):
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學(xué),未經(jīng)西安電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811599198.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 通用的數(shù)據(jù)流描述
- 數(shù)據(jù)流量統(tǒng)計(jì)方法及裝置
- 一種網(wǎng)絡(luò)流量監(jiān)控的系統(tǒng)和方法
- 在數(shù)據(jù)處理設(shè)備中利用數(shù)據(jù)流描述變換數(shù)據(jù)流的方法
- 一種網(wǎng)絡(luò)數(shù)據(jù)流量分類方法和裝置
- 一種雙度集成的不均衡數(shù)據(jù)流分類算法
- 一種基于規(guī)則路由的數(shù)據(jù)流實(shí)時(shí)分類方法及系統(tǒng)
- 一種分布式傳輸?shù)木W(wǎng)絡(luò)流量分類系統(tǒng)和方法
- 一種報(bào)文處理方法及裝置
- 基于時(shí)序特征學(xué)習(xí)的數(shù)據(jù)流分類方法及裝置
- 數(shù)據(jù)分類方法和裝置
- 數(shù)據(jù)分類方法、系統(tǒng)和設(shè)備
- 數(shù)據(jù)分類標(biāo)識(shí)方法、裝置、計(jì)算機(jī)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)分類方法及系統(tǒng)
- 告警數(shù)據(jù)的分類方法、裝置和電子設(shè)備及存儲(chǔ)介質(zhì)
- 點(diǎn)云數(shù)據(jù)分類方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 代碼重構(gòu)方法、裝置、計(jì)算機(jī)設(shè)備及介質(zhì)
- 一種數(shù)據(jù)處理方法及裝置
- 一種流量數(shù)據(jù)包分類方法、裝置及電子設(shè)備
- 一種數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)設(shè)備和可讀存儲(chǔ)介質(zhì)
- 信息終端、服務(wù)器、信息顯示系統(tǒng)以及信息顯示方法
- 基板處理裝置、歷史信息記錄方法、記錄程序及記錄系統(tǒng)
- 記錄歷史信息的管理方法及裝置
- 一種歷史信息展示方法及裝置
- 信息處理裝置、信息處理方法和計(jì)算機(jī)可讀的記錄介質(zhì)
- 行駛歷史轉(zhuǎn)換方法、信息處理裝置和信息系統(tǒng)
- 圖像形成裝置、圖像形成系統(tǒng)及顯示控制方法
- 信息處理方法及裝置、電子設(shè)備、存儲(chǔ)介質(zhì)
- 一種基于航班歷史延誤和取消信息的機(jī)票購(gòu)買方法和系統(tǒng)
- 物品搭售信息顯示方法、裝置、電子設(shè)備和可讀介質(zhì)





