[發(fā)明專利]一種基于k均值樣本預選的支持向量機主動學習方法在審
| 申請?zhí)枺?/td> | 201710306162.1 | 申請日: | 2017-05-04 |
| 公開(公告)號: | CN107145907A | 公開(公告)日: | 2017-09-08 |
| 發(fā)明(設計)人: | 楊云;任皓;何臻力 | 申請(專利權)人: | 云南大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京科億知識產(chǎn)權代理事務所(普通合伙)11350 | 代理人: | 湯東鳳 |
| 地址: | 650091 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 均值 樣本 預選 支持 向量 機主 學習方法 | ||
技術領域
本發(fā)明屬于機器學習中的主動學習技術領域,尤其涉及一種基于k均值樣本預選的支持向量機主動學習方法。
背景技術
在很多復雜的監(jiān)督學習任務中,標記實例的獲得是困難的、耗時的;比如在語音識別中,獲得對語音表達的正確標注需要花費經(jīng)驗豐富的語言學家大量的時間和精力;對于詞級的標注所耗費的時間通常是音頻時長的10倍,而音素標注的時間耗費是音頻時長的400倍;在信息提取中,好的信息提取系統(tǒng)必須依賴具有標簽的文本和詳細的相關說明,這也需要耗費大量的時間,并要求領域專家參與以保證信息的準確;此外,諸如郵件的分類和過濾、計算機輔助醫(yī)學影像分析等領域,標記實例都是昂貴的、不易獲取的。因此,如何通過對大量未標記數(shù)據(jù)進行利用來提升學習性能這一理論上重要、現(xiàn)實中能夠發(fā)揮效用的問題,受到了機器學習界的高度重視;主動學習和半監(jiān)督學習是利用未標記實例提升學習性能的兩個重要方法,其中,主動學習也被稱作“查詢學習”(query learning),作為機器學習的一個分支領域,其重要思想是:如果本發(fā)明允許學習算法去選擇它所學習的數(shù)據(jù),變得更為“富有好奇心”,那么算法將會需要更少的訓練并且表現(xiàn)得更好;主動學習的幾個常用方法有:整合成員信息查詢(membership query synthesis)、基于流的選擇抽樣(stream-based selective sampling)、基于池的抽樣(pool-based sampling)等;半監(jiān)督學習作為機器學習的另一分支,它讓學習器自動地對大量未標記數(shù)據(jù)進行利用,輔助少量標記數(shù)據(jù)進行學習。在概念上兩者也存在許多共性的地方值得思考。舉例半監(jiān)督學習中的自訓練方法(self-training),它首先利用少量的標記實例進行學習,然后將最有把握的未標記實例及其預測標記加入學習器進行迭代;而主動學習中的不確定性抽樣方法(uncertainty sampling),提出選擇學習器最沒把握的未標記實例進行標記查詢。由此可見,主動學習和半監(jiān)督學習分別著重問題的兩個方面,前者探索未標記實例的未知信息,而后者著重已知的方面。正因為如此,許多學者自然地提出了將主動學習與半監(jiān)督學習相結合的方法。現(xiàn)有利用未標記實例提高分類器學習性能的方法主要有兩種,其具體缺點如下:(1)主動學習實例選取的缺點主動學習的思想為:如何選擇需要的數(shù)據(jù),主動學習并沒有給出完善的解決方案。多數(shù)時候,只能應用主動學習的思想而并沒有解決特定問題的具體辦法,需要做到“具體問題,具體分析”。這一方面使得相關技術人員在考慮采用主動學習的思想時,因為得不到規(guī)范具體的執(zhí)行步驟、佐證而畏首畏尾,導致項目設計周期長、效率低。另一方面,主動學習基于經(jīng)驗的決策方式使得相關決策缺乏完善的理論支持,可信度較低,而為了提升決策可信度,雇傭足夠多的領域專家又會導致決策成本的大幅提高。(2)半監(jiān)督SVM方法的缺點,半監(jiān)督SVM(S3VM)是支持向量機在半監(jiān)督學習上的推廣,在不考慮未標記樣本時,支持向量機試圖找到最大間隔劃分超平面,而在考慮未標記樣本后,S3VM試圖找到能將兩類樣本分開的,且穿過數(shù)據(jù)低密度區(qū)域的劃分超平面。S3VM方法的問題是計算復雜,具有較多的待定參數(shù),使得該方法的復雜度很高且難以使用,在如今日益增長的數(shù)據(jù)規(guī)模下,算法復雜度高的算法無法應對龐大的數(shù)據(jù)量及特殊應用所要求的響應速度,具體表現(xiàn)在:半監(jiān)督SVM算法難以遷移到大數(shù)據(jù)量的應用問題上;對于實時處理、要求響應時間的應用上也難以應用這類復雜度高的算法等。因此,需要更為高效的優(yōu)化求解策略;同時,傳統(tǒng)的S3VM具有未標記實例降低分類準確率的風險。
綜上所述,現(xiàn)有技術存在的問題是:現(xiàn)有利用未標記實例提高分類器學習性能的方法存在只能應用主動學習的思想而并沒有解決特定問題的具體辦法,需要做到“具體問題,具體分析”;算法計算復雜度高,導致算法難以應用在時效性需求較高的應用上。
發(fā)明內(nèi)容
針對現(xiàn)有技術存在的問題,本發(fā)明提供了一種基于k均值樣本預選的支持向量機主動學習方法。
本發(fā)明是這樣實現(xiàn)的,一種基于k均值樣本預選的支持向量機主動學習方法,所述基于k均值樣本預選的支持向量機主動學習方法包括以下步驟:
步驟一,利用k均值聚類算法進行樣本預選,基于距離選擇出少部分靠近聚類中心、較為密集、“重要”的樣本來代替整個樣本集進行常規(guī)支持向量機的訓練;
步驟二,依據(jù)數(shù)據(jù)預選的結果,在未標記實例集中對重要樣本集L*中的每個實例進行查詢,將查詢得到的類標返回;得到未標記實例集中的部分“重要”實例并獲取標記,來代替全部未標記實例;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云南大學,未經(jīng)云南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710306162.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種網(wǎng)絡攝像機
- 下一篇:非接觸式滾柱超越離合器





