[發明專利]一種基于半監督聚類的遷移學習方法有效
| 申請號: | 201210464867.3 | 申請日: | 2012-11-16 |
| 公開(公告)號: | CN103020122A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 初妍;陳曼;沈潔;夏琳琳;王勇;李麗潔;高迪;王興梅 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 遷移 學習方法 | ||
技術領域
本發明涉及一種機器學習領域的方法,特別是涉及一種基于半監督聚類的遷移學習方法。
背景技術
機器學習中傳統的分類器要求源數據與目標數據必須具備相同的分布,然而現代社會信息發展日新月異,這種假設在實際生活中很難實現。當出現不同分布的數據時,傳統分類器就要重新收集大量數據,由專家對這些數據進行分析、標簽。就要投入大量的人力、時間,這樣做不僅效率不高,而且代價也是很昂貴的。而遷移學習就能克服從零開始收集數據的缺點。它能從不同但相似領域,遷移其有用的方法、技術到目標領域,幫助目標領域數據進行分類。
目前有一些對遷移學習方法的研究,但其主要是針對二分類的,即假設目標數據分類只分為兩類:0或1。然而現實生活,數據復雜多樣,分類不可能如此單一,這顯然很不符合實際。對于多分類復雜分類器來說,該實驗算法可能就會失效。還有一些方法,通過建立源領域到目標領域的橋梁,通過橋梁實現標簽傳遞。標簽傳遞過程中不斷地修正由源領域訓練得到的模型在目標領域數據集中的預測,最終并不能形成一個分類器。對于新來的數據,只能重新進行橋接精化的過程,這對于整個遷移學習過程效率很低。此外,目前對遷移學習方法的研究都面臨著一個共同的問題:精確度不高。我們可以通過一些算法實現方法、技術的遷移,產生最終分類器。但是由于知識、能力的限制,使得最終分類器的分類精度不高,即分類誤差比較大。
發明內容
本發明的目的在于提供一種將分類方法、技術從一個領域遷移到另一個領域的提高分類結果精確度的一種基于半監督聚類的遷移學習方法。
本發明的目的是這樣實現的:
基于半監督聚類的遷移學習方法包括以下步驟:
(1)、計算目標數據與輔助數據各類中數據的相似度;
(2)、計算目標數據與輔助數據各類的平均相似度;
(3)、預分類:由平均相似度得到目標數據與類標簽的一個相似度權重向量。取向量中權重最大的為目標數據的標簽;
(4)、再分類:以目標數據為質心,進行K-均值聚類。聚類成簇,每簇中以簇中數據占所屬類中總數據比例最大者的標簽為簇標簽;
(5)、將再分類結果與預分類結果做對比。若兩者相同,則增大相似度權重向量中類標簽權重;若不相同,則減小類標簽權重;
(6)、在最終形成的目標數據相似度權重向量中,挑選權重最大的數據標簽作為目標數據數據標簽,從而形成最終分類器。
本發明的有益效果是:
1.改進機器學習中傳統分類器,可以進行跨領域的知識、技術的遷移。
2.不只是停留在實驗中二分類的情況,而是可以針對實際情況完成多分類的標簽遷移,對目標數據進行分類任務。
3.最終可以產生分類器,該分類器可以是多類別分類器,符合實際,效率高,精確度也比較高。
4、可以用于相似領域的文本分類、網頁分類、圖像分類等,甚至可實現文本到圖片或圖片到文本分類方法、技術的遷移。
附圖說明
圖1為基于半監督聚類的遷移學習方法的流程圖。
具體實施方式
本發明采用標準文本數據20Newsgroup作為實驗數據。20Newsgroup是一個包含20000個新聞組的文檔集,分為20個子類,7個頂層類。為使數據集滿足遷移場景,本發明對數據集進行了重構。由于該數據集包含分屬不同頂層類別的子類,可以將相同頂層類別的子類劃分出來與不同頂層的子類構成不同領域的數據集。基于這種重構,源領域數據與目標數據來源于不同分布,但由于其子類又有相同的頂層類,因此兩個領域數據又存在一定聯系。源領域、目標領域數據如下:
下面結合附圖舉例對本發明做詳細的描述:
本發明所提出的基于半監督聚類的遷移學習方法具體實現步驟如下:
把將要分類數據集稱為目標數據。具體為當目標數據比較少,不足以形成一個分類器時,以不同但相似分布的帶標簽領域數據集作為輔助數據,利用半監督聚類的方法,將輔助數據的分類方法、技術,遷移到目標領域,形成一個分類器,從而為目標領域無標記數據進行分類。
1.分別將目標數據和輔助數據進行去停用詞、詞干化等預處理。提取出目標數據與輔助數據的共同特征,將目標數據和輔助數據用向量表示。然后分別計算輔助數據各類中數據與目標數據的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210464867.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于視頻源實現混音的方法和裝置
- 下一篇:負載控制裝置





