[發明專利]機器學習方法和裝置有效
| 申請號: | 201010280239.0 | 申請日: | 2010-09-09 |
| 公開(公告)號: | CN102402713A | 公開(公告)日: | 2012-04-04 |
| 發明(設計)人: | 楊宇航;于浩;孟遙;陸應亮;夏迎炬 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06N99/00 | 分類號: | G06N99/00 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 康建峰;苗迎華 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器 學習方法 裝置 | ||
技術領域
本發明涉及機器學習領域,更具體而言,涉及一種容錯的機器學習方法和裝置。
背景技術
機器學習旨在研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。機器學習方法和裝置被廣泛應用于不同領域的任務,例如計算機視覺、自然語言處理、生物信息學等。
機器學習可以分為有指導學習和無指導學習兩大類。一般情況下,無指導的學習方法使用未標注的數據集訓練分類器。圖1示出了現有技術中的一種無指導機器學習方法的示意性流程圖。在步驟S110中,對未標注的數據集進行隨機標注,獲取訓練集。在步驟S120中,用訓練集訓練分類器。在步驟S130中,用訓練出的分類器預測待處理的實例集合。無指導的學習方法無需投入大量人力對數據集進行標注,但是由于數據集未經標注,效果可能不是很理想。
圖2示出了現有技術中的一種有指導機器學習方法的示意性流程圖。在步驟S210中,用人工標注的訓練集訓練分類器。在步驟S220中,用訓練出的分類器預測待處理的實例集合。有指導的學習方法使用大量人工校對的數據,從而可以取得較好的效果。但這樣的方法很難移植到資源有限的領域或應用。
因此機器學習方法經常面臨這樣的窘境:無指導的方法可能效果并不十分理想,而有指導的方法需要消耗大量的人力物力用于準備訓練語料。
為了克服這種窘境,出現了半指導的學習方法。圖3示出了現有技術中的一種半指導機器學習方法的示意性流程圖。與圖1的無指導學習方法相比,圖3中在訓練分類器時,除了使用從未標注的數據集中隨機標注和獲取的訓練集之外,還使用了人工標注的訓練集。圖4示出了現有技術中的另一種半指導機器學習方法的示意性流程圖。在圖4的方法中,在步驟S410中人工標注和獲取一個種子集合,并在步驟S420中用該種子集合訓練一個分類器。另外,為了提高分類器的性能,在步驟S430中,用分類器預測待處理的實例集合;在步驟S440中,將預測結果中可信度最高的實例加入種子集合中;以及在步驟S450中,利用加入實例的種子集合再次訓練分類器。重復步驟S430至S450,直到滿足規定的重復終止條件。
半指導的方法可以同時使用標注和未標注的語料,但依然嚴重依賴于標注語料的規模和質量。如何在人工參與程度和性能方面尋求平衡依然是機器學習領域面臨的重要挑戰。
發明內容
在下文中給出了關于本發明的簡要概述,以便提供關于本發明的某些方面的基本理解。應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖確定本發明的關鍵或重要部分,也不是意圖限定本發明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
鑒于現有技術的以上情況,本發明旨在提供一種高效的、容錯的機器學習方法和裝置。
根據本發明的一個方面,一種機器學習方法包括:利用不同的方法從未標注的數據集中自動標注和獲取n個不同的種子集合S1,S2,...,Sn,n是自然數且n≥2;利用所述n個已自動標注的種子集合S1,S2,...,Sn分別訓練相應的n個分類器C1,C2,...,Cn;對于所述n個已自動標注的種子集合中的每個種子集合Si,i=1,2,...,n,利用所述n個分類器中的除由該種子集合Si訓練的分類器Ci之外的部分或全部分類器對該種子集合Si進行驗證;以及利用經驗證的所述n個種子集合S1,S2,...,Sn分別再次訓練所述相應的n個分類器C1,C2,...,Cn。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010280239.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:輸出軸機構及帶減速機的電動機
- 下一篇:一種齒輪鉆孔夾具





