[發明專利]一種基于置信度和聚類的未標記樣本選擇的方法在審
| 申請號: | 201410395794.6 | 申請日: | 2014-08-12 |
| 公開(公告)號: | CN104156438A | 公開(公告)日: | 2014-11-19 |
| 發明(設計)人: | 王榮燕;謝延紅 | 申請(專利權)人: | 德州學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/66 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 253000 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 置信 標記 樣本 選擇 方法 | ||
技術領域
本發明涉及機器學習和模式識別領域,具體地說是一種基于置信度和聚類的未標記樣本選擇的方法。
背景技術
目前,在有監督分類模型的學習中,一個普遍的問題是標記樣本不足。原因是隨著數字內容采集制作技術的日益成熟,以及大容量存儲器的廉價化,網絡上的音頻信息迅猛增加,獲取大量未標記的音頻樣例已經非常容易,但人工標注成本太高,造成了在很多音頻數據集中未標記樣本的數量遠大于已標記樣本的數量的情況。如果只使用少量已標記樣本,有監督學習得到的分類模型很難具備好的泛化性能,同時,大量未標記樣本中的信息也無法得到充分利用,造成信息的浪費。在這種背景下,研究如何在少量已標記樣本的條件下綜合利用大量的未標記樣本來提高學習性能的半監督學習(Semi-supervised?Learning)引起了人們的重視,成為當前機器學習和模式識別的重要研究領域之一。
半監督學習在實際問題中有著廣泛的應用價值,其研究成果已經被應用于語音識別、圖像識別與圖像檢索、視頻標注、自然語言處理以及生物特征識別等領域。由于網絡上存在著大量的未標記音頻文件,因而將半監督學習應用于復雜音頻分類問題也就變得很自然。
目前,半監督學習中,人們關注的更多的是如何利用未標記樣本,而對于哪些未標記樣本能幫助半監督學習的研究較少。例如Thorsten?Joachims在文獻中提出的TSVM學習方法,證明了通過交換滿足特定條件的兩個未標記樣本被預添加的標簽,能夠使支持向量機的目標函數更加優化,該文獻的實驗表明,半監督學習器的分類性能隨著未標記樣本數量的增加而不斷提高。但是,在多次實驗中,發現半監督音頻分類器的分類性能并不是隨著未標記樣本的增多不斷提高,這表明在有限的已標記樣本情況下,不是任意的未標記樣本對半監督學習都有幫助,半監督學習器的性能與加入的未標記樣本有關。關于這一點,Aarti?Singh等人也在文獻[中指出并非任意的未標記樣本都對半監督學習有幫助。針對這一特殊問題,本發明提出一種基于置信度和聚類的未標記樣本選擇的方法算法,該算法能夠更好的利用未標記樣本提高音頻分類器的性能,并為半監督學習用于其它領域時進行未標記樣本選擇提供了參考。
發明內容
本發明目的是為克服上述不足,提供一種基于置信度和聚類的未標記樣本選擇的方法,以便處理影視節目中的音頻流文件,在影視節目中占多數時間的音頻類型是語音,其他的音頻類型整體占有的時間片段相對比較短,因此,同樣存在嚴重的數據不平衡問題。為了減弱數據不平衡對分類性能造成的影響,本發明采用分層TSVM算法,并且提出一種半監督學習中基于置信度和聚類的未標記樣本選擇的方法算法。
本發明所采用的技術方案是:一種基于置信度和聚類的未標記樣本選擇的方法,采用的是分層TSVM分類器,采用基于置信度和聚類的未標記樣本選擇的方法算法,用于改善TSVM算法的性能,用于TSVM學習的未標記樣本是從大量的未標記樣本中選出的,這些未標記樣本需要滿足特定的條件才能提高半監督學習器的性能,首先將所有的未標記樣本進行聚類,選擇離簇邊界比較近的樣本,選出邊界樣本后,用已標記樣本訓練有監督的SVM分類器,并對選出的邊界樣本進行識別,選擇不同置信度區間的未標記樣本進行TSVM訓練。得到樣本的置信度后,定義某一閾值,選擇置信度大于的未標記樣本進入下一層的半監督學習,目的是使被選中的樣本屬于下一層分類器所對應類別的概率在上一層分類器的條件下最大。選取的未標記樣本即能代表樣本邊界分布情況,又能使得每層選取的樣本屬于下一層分類器所對應類別的概率最大。
所述的未標記樣本滿足的條件以及選擇方法如下:
(1)本發明采用分層TSVM分類器,在每一層訓練兩個TSVM分類器,加入半監督學習的樣本,應該分別屬于每個分類器所對應的相應類別。
第一層,在靜音和非靜音的半監督學習中,所有的未標記樣本均屬于這兩個類別。因此,所有的未標記樣本均滿足上述條件。
第一層的分類器訓練完畢后,得到兩個分支,假設左分支為正類,右分支為負類,對每一個分支選擇屬于該分支的樣本。選擇的方法是,定義樣本x屬于某個類別的置信度Con(x),假設第一層訓練得到的分類面為f(x),利用該分類面對所有的未標記樣本重新識別,則x相對于分類面f(x)屬于某一類的置信度可以用x屬于該類的概率表示,本發明采用Linetal.對Platt概率輸出的一種改進算法進行概率估計,即:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于德州學院,未經德州學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410395794.6/2.html,轉載請聲明來源鉆瓜專利網。





