[發(fā)明專利]一種基于支持向量機(jī)的主動(dòng)學(xué)習(xí)方法無效
| 申請(qǐng)?zhí)枺?/td> | 201310122244.2 | 申請(qǐng)日: | 2013-04-09 |
| 公開(公告)號(hào): | CN103198052A | 公開(公告)日: | 2013-07-10 |
| 發(fā)明(設(shè)計(jì))人: | 冷嚴(yán);徐新艷 | 申請(qǐng)(專利權(quán))人: | 山東師范大學(xué) |
| 主分類號(hào): | G06F15/18 | 分類號(hào): | G06F15/18 |
| 代理公司: | 濟(jì)南圣達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 鄭華清 |
| 地址: | 250014 山*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 支持 向量 主動(dòng) 學(xué)習(xí)方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域,特別是一種基于支持向量機(jī)的主動(dòng)學(xué)習(xí)方法。
背景技術(shù)
在機(jī)器學(xué)習(xí)領(lǐng)域,訓(xùn)練一個(gè)具有良好分類性能的分類器需要大量已經(jīng)標(biāo)注好的樣本參與訓(xùn)練。然而標(biāo)注樣本并不是越多越好,過多的標(biāo)注樣本可能會(huì)產(chǎn)生冗余,增加計(jì)算的工作量;而且,大量的已標(biāo)注樣本中并不是每個(gè)樣本都是對(duì)分類器的訓(xùn)練有用的。那些信息含量大的樣本,由于其對(duì)提高分類器性能的貢獻(xiàn)大,因而是有用的樣本,是值得我們標(biāo)注的樣本。因此,在進(jìn)行樣本標(biāo)注時(shí),除了要保證一定的數(shù)量以外,還應(yīng)該保證標(biāo)注樣本的質(zhì)量,這樣不但能提高分類器的分類性能,而且可以減少人工標(biāo)注的工作量。挑選最有用的樣本進(jìn)行人工標(biāo)注,這正是主動(dòng)學(xué)習(xí)技術(shù)的核心所在。
主動(dòng)學(xué)習(xí)是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)研究熱點(diǎn)。所有的主動(dòng)學(xué)習(xí)方法都需要對(duì)未標(biāo)注樣本的信息量大小進(jìn)行評(píng)價(jià),以挑選信息量大的樣本交由專家標(biāo)注。根據(jù)評(píng)價(jià)策略的不同,主動(dòng)學(xué)習(xí)方法主要分為以下幾類:
(1)基于不確定性采樣的主動(dòng)學(xué)習(xí);
(2)基于委員會(huì)的主動(dòng)學(xué)習(xí);
(3)基于預(yù)期誤差縮減的主動(dòng)學(xué)習(xí);
本發(fā)明是基于支持向量機(jī)的主動(dòng)學(xué)習(xí)方法,屬于基于不確定性采樣的主動(dòng)學(xué)習(xí)范疇。
支持向量機(jī)(support?vector?machines,SVM)是一個(gè)二值分類器。Tong&Koller在對(duì)稱版本空間的假設(shè)下證明了距離SVM的分類面最近的樣本其信息含量最大,因?yàn)榇藰颖灸苎杆倏s減版本空間。但是herbrich指出,現(xiàn)實(shí)中許多情況都難以很好地滿足對(duì)稱版本空間這一假設(shè),因此距離分類面最近的樣本的信息含量并沒有我們預(yù)期的那么大。有鑒于此,本發(fā)明在樣本與分類面距離的基礎(chǔ)上進(jìn)一步挖掘樣本的信息量,以找到信息量更大的樣本交由專家標(biāo)注。
發(fā)明內(nèi)容
為了在樣本與分類面距離的基礎(chǔ)上進(jìn)一步挖掘樣本的信息量,以采樣信息量更大的樣本,本發(fā)明具體公開了一種基于支持向量機(jī)的主動(dòng)學(xué)習(xí)方法。
本發(fā)明采用的技術(shù)方案如下:
一種基于支持向量機(jī)的主動(dòng)學(xué)習(xí)方法,包括以下步驟:
步驟1用初始已標(biāo)注樣本集L訓(xùn)練初始SVM分類器;
步驟2用SVM分類器從未標(biāo)注樣本集U中尋找落在其邊界內(nèi)的候選樣本,組成候選樣本集S;
步驟3從候選樣本集S中挑選信息含量最大的樣本交給專家標(biāo)注;
步驟4將專家標(biāo)注后的樣本放入已標(biāo)注樣本集L中;
步驟5用更新的已標(biāo)注樣本集L重新訓(xùn)練SVM分類器;
步驟6根據(jù)停止準(zhǔn)則判斷是退出循環(huán)還是繼續(xù)迭代。
所述的步驟2中,用SVM分類器從未標(biāo)注樣本集U中尋找落在其邊界內(nèi)的候選樣本,組成候選樣本集S的方法如下:以SVM分類器邊界(margin)內(nèi)的樣本作為候選樣本,組成候選樣本集S,即:
S={xi|xi∈U,且|f(xi)|<1}
放入候選樣本集S中的樣本應(yīng)同時(shí)從未標(biāo)注樣本集U中移除。
所述步驟3中,從候選樣本集S中挑選信息含量最大的樣本的方法如下:首先對(duì)候選樣本集S中的每個(gè)樣本xi,從已標(biāo)注樣本集L中尋找其K個(gè)最近鄰樣本,記作假設(shè)這K個(gè)最近鄰樣本中,正類樣本的數(shù)目為ki+,負(fù)類樣本的數(shù)目為ki-,求兩者中的最小值,即:
最后,從候選樣本集S中尋找ki值最大的那個(gè)未標(biāo)注樣本作為信息含量最大的樣本,并將其交由專家進(jìn)行人工標(biāo)注,而對(duì)于候選樣本集S中其余的樣本,應(yīng)當(dāng)將其從候選樣本集S中移除,并重新放回未標(biāo)注樣本集U中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東師范大學(xué),未經(jīng)山東師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310122244.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F15-00 通用數(shù)字計(jì)算機(jī)
G06F15-02 .通過鍵盤輸入的手動(dòng)操作,以及應(yīng)用機(jī)內(nèi)程序的計(jì)算,例如,袖珍計(jì)算器
G06F15-04 .在引入被處理的數(shù)據(jù)的同時(shí),進(jìn)行編制程序的,例如,在同一記錄載體上
G06F15-08 .應(yīng)用插接板編制程序的
G06F15-16 .兩個(gè)或多個(gè)數(shù)字計(jì)算機(jī)的組合,其中每臺(tái)至少具有一個(gè)運(yùn)算器、一個(gè)程序器及一個(gè)寄存器,例如,用于數(shù)個(gè)程序的同時(shí)處理
G06F15-18 .其中,根據(jù)計(jì)算機(jī)本身在一個(gè)完整的運(yùn)行期間內(nèi)所取得的經(jīng)驗(yàn)來改變程序的;學(xué)習(xí)機(jī)器
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置
- 主動(dòng)元件及主動(dòng)元件陣列基板
- 主動(dòng)降噪系統(tǒng)、主動(dòng)降噪耳機(jī)及主動(dòng)降噪方法
- 主動(dòng)定位方法及主動(dòng)定位系統(tǒng)
- 主動(dòng)降噪系統(tǒng)及主動(dòng)降噪耳機(jī)
- 主動(dòng)清除系統(tǒng)和主動(dòng)清除方法
- 主動(dòng)筆控制方法及主動(dòng)筆
- 筆尖、主動(dòng)筆和主動(dòng)筆系統(tǒng)
- 主動(dòng)降噪耳機(jī)和主動(dòng)降噪方法
- 主動(dòng)導(dǎo)管及主動(dòng)導(dǎo)管系統(tǒng)
- 主動(dòng)降噪算法及主動(dòng)降噪耳機(jī)





