[發(fā)明專利]一種對(duì)不均衡數(shù)據(jù)進(jìn)行處理的方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201711170061.2 | 申請(qǐng)日: | 2017-11-22 |
| 公開(公告)號(hào): | CN108319967A | 公開(公告)日: | 2018-07-24 |
| 發(fā)明(設(shè)計(jì))人: | 張雪瑩;李瑞賢;楊云祥;郭靜;吉祥;胡校成;唐先超;宋超;江逸楠;段銳;陽(yáng)兵 | 申請(qǐng)(專利權(quán))人: | 中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院 |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62 |
| 代理公司: | 工業(yè)和信息化部電子專利中心 11010 | 代理人: | 于金平 |
| 地址: | 100041 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 不均衡 數(shù)據(jù)處理 最近鄰算法 個(gè)人使用 實(shí)例學(xué)習(xí) 學(xué)習(xí)性能 有效解決 數(shù)據(jù)集 偏好 預(yù)測(cè) 學(xué)習(xí) | ||
本發(fā)明公開了一種對(duì)不均衡數(shù)據(jù)進(jìn)行處理的方法及系統(tǒng),本發(fā)明通過(guò)基于實(shí)例學(xué)習(xí)的k?最近鄰算法預(yù)測(cè)出待學(xué)習(xí)問(wèn)題上所有候選不均衡數(shù)據(jù)處理方法的排名,使得用戶可依據(jù)推薦的排名及個(gè)人使用偏好選取最適用的不均衡數(shù)據(jù)處理方法,獲得最優(yōu)的不均衡學(xué)習(xí)性能。從而有效解決了現(xiàn)有技術(shù)中不能對(duì)給定的不均衡數(shù)據(jù)集,找到最適用的不均衡數(shù)據(jù)處理方法的問(wèn)題。
技術(shù)領(lǐng)域
本發(fā)明涉及通信技術(shù)領(lǐng)域,尤其涉及一種對(duì)不均衡數(shù)據(jù)進(jìn)行處理的方法及系統(tǒng)。
背景技術(shù)
不均衡學(xué)習(xí)問(wèn)題是數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)領(lǐng)域中的一類典型學(xué)習(xí)問(wèn)題。類不均衡是指數(shù)據(jù)集中類分布的先驗(yàn)概率相差懸殊,其中少數(shù)類往往是研究人員感興趣的學(xué)習(xí)重點(diǎn)。類不均衡數(shù)據(jù)集廣泛存在于現(xiàn)實(shí)生活中的各個(gè)應(yīng)用領(lǐng)域,如石油泄漏檢測(cè)、欺詐檢測(cè)、醫(yī)療診斷、網(wǎng)絡(luò)入侵檢測(cè)、缺陷預(yù)測(cè)及風(fēng)險(xiǎn)評(píng)估等。類不均衡分類問(wèn)題的難點(diǎn)在于它違背了傳統(tǒng)分類算法基于類均衡且誤分類代價(jià)相等的前提假設(shè),類不均衡以及誤分類代價(jià)不相等使在類均衡數(shù)據(jù)集上表現(xiàn)較好的傳統(tǒng)分類算法,在類不均衡數(shù)據(jù)集上的分類性能顯著下降,特別是少數(shù)類樣本的分類。近年來(lái),不均衡學(xué)習(xí)問(wèn)題已然成為機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)極具有挑戰(zhàn)性的研究課題。
由于不均衡學(xué)習(xí)問(wèn)題以及不均衡數(shù)據(jù)處理方法多種多樣,且實(shí)際上并不存在單一的方法在所有不均衡數(shù)據(jù)集上都能獲得最優(yōu)的分類性能,即不同的不均衡學(xué)習(xí)問(wèn)題上,最適用的處理方法也不盡相同。正如“No Free Lunch”(NFL)理論所述:沒(méi)有一種算法適用于解決所有問(wèn)題,數(shù)據(jù)集不同,所適用的方法也不相同。Fulkerson在StatLog項(xiàng)目中進(jìn)行了充分的實(shí)驗(yàn),全面比較了不同的機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)及統(tǒng)計(jì)分類算法在不同領(lǐng)域的數(shù)據(jù)集上的分類性能,進(jìn)一步驗(yàn)證了NFL理論。對(duì)于給定的不均衡數(shù)據(jù)集,如何找出該數(shù)據(jù)集上最適用的不均衡數(shù)據(jù)處理方法是一個(gè)亟待解決的難題。
發(fā)明內(nèi)容
鑒于上述的分析,本發(fā)明旨在提供一種對(duì)不均衡數(shù)據(jù)進(jìn)行處理的方法及系統(tǒng),用以解決現(xiàn)有技術(shù)中不能對(duì)給定的不均衡數(shù)據(jù)集,找到最適用的不均衡數(shù)據(jù)處理方法的問(wèn)題。
為解決上述問(wèn)題,本發(fā)明主要是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
本發(fā)明提供了一種對(duì)不均衡數(shù)據(jù)進(jìn)行處理的方法,該方法包括:構(gòu)建元知識(shí)數(shù)據(jù)庫(kù);基于實(shí)例學(xué)習(xí)的k-最近鄰算法給出未知數(shù)據(jù)集上所有候選不均衡數(shù)據(jù)處理方法的排名。
進(jìn)一步地,構(gòu)建元知識(shí)數(shù)據(jù)庫(kù)具體包括:根據(jù)歷史不均衡數(shù)據(jù)集,抽取描述數(shù)據(jù)集本身特征的度量,構(gòu)建特征向量作為元特征,同時(shí)評(píng)估各數(shù)據(jù)集上所有候選不均衡數(shù)據(jù)處理方法的分類性能,并將所有方法按分類性能排序,獲取相應(yīng)的排名作為元目標(biāo);然后,將每個(gè)數(shù)據(jù)集的特征向量與不均衡數(shù)據(jù)處理方法的排名一一對(duì)應(yīng),建立數(shù)據(jù)集特征-不均衡數(shù)據(jù)處理方法的排名的元知識(shí)數(shù)據(jù)庫(kù)。
進(jìn)一步地,構(gòu)建元知識(shí)數(shù)據(jù)庫(kù)的步驟之后,基于實(shí)例學(xué)習(xí)的k-最近鄰算法給出未知數(shù)據(jù)集上所有候選不均衡數(shù)據(jù)處理方法的排名的步驟之前,還包括:
對(duì)待處理的不均衡數(shù)據(jù)集進(jìn)行元特征提取,并對(duì)待處理的不均衡數(shù)據(jù)集進(jìn)行元目標(biāo)識(shí)別。
進(jìn)一步地,對(duì)待處理的不均衡數(shù)據(jù)集進(jìn)行元特征提取,具體包括:通過(guò)數(shù)據(jù)集特征度量描述不均衡分類問(wèn)題的本質(zhì)特征。
進(jìn)一步地,所述數(shù)據(jù)集特征度量包括傳統(tǒng)的特征度量、問(wèn)題復(fù)雜度、Landmarking度量、基于模型度量以及結(jié)構(gòu)信息度量中的一種或多種。
進(jìn)一步地,所述對(duì)待處理的不均衡數(shù)據(jù)集進(jìn)行元目標(biāo)識(shí)別,具體包括:基于不均衡數(shù)據(jù)集的分類精度AUC以及運(yùn)行時(shí)間衡量不均衡數(shù)據(jù)處理方法的性能,對(duì)待處理的不均衡數(shù)據(jù)集進(jìn)行元目標(biāo)識(shí)別。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院,未經(jīng)中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711170061.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計(jì)算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 一種直接提取的k個(gè)最近鄰點(diǎn)搜索方法
- 一種基于TNN-SVM的電力系統(tǒng)暫態(tài)穩(wěn)定分類方法
- 用于改進(jìn)SIMD KNN實(shí)現(xiàn)的設(shè)備、方法、系統(tǒng)和機(jī)器可讀介質(zhì)
- 一種基于自然共享最近鄰居搜索的發(fā)現(xiàn)簇和離群點(diǎn)的算法
- 一種改進(jìn)MK模型和WKNN算法相結(jié)合的混合室內(nèi)定位方法
- 一種快速精確的粒球近鄰分類算法
- 一種基于參考點(diǎn)的快速精確近鄰分類算法
- 一種基于加權(quán)混合k-最近鄰算法的圖書推薦方法與系統(tǒng)
- 用于無(wú)人駕駛的三維激光雷達(dá)點(diǎn)云高效K-最近鄰搜索算法
- 基于固定半徑最近鄰回歸算法的水稻葉片可溶性糖含量遙感反演模型和方法





