[發明專利]一種半監督學習的訓練方法、系統和計算機可讀存儲介質有效
| 申請號: | 201910766533.3 | 申請日: | 2019-08-20 |
| 公開(公告)號: | CN110298415B | 公開(公告)日: | 2019-12-03 |
| 發明(設計)人: | 別曉輝;徐盼盼;別偉成;單書暢 | 申請(專利權)人: | 視睿(杭州)信息科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 33235 杭州華知專利事務所(普通合伙) | 代理人: | 張德寶<國際申請>=<國際公布>=<進入 |
| 地址: | 310000 浙江省杭州市余杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注 樣本 損失函數 計算機可讀存儲介質 半監督學習 聚類中心 標簽 半監督學習算法 對比分析 輔助模型 模型計算 特征訓練 優化模型 預測能力 預測 聚類 預設 | ||
本發明提供一種半監督學習的訓練方法、系統和計算機可讀存儲介質,所述方法包括:對歷史標注樣本進行聚類,計算得到聚類中心;接收新的標注樣本和未標注樣本;根據模型計算標注樣本的預測標簽,結合預測標簽與實際標簽求得第一損失函數;對比分析未標注樣本和聚類中心的歷史標注樣本的一致性,并計算得到第二損失函數;結合第一損失函數和第二損失函數,并采用預設的半監督學習算法優化模型的參數。本發明只要標注少量的樣本,極大降低了標注過程的成本;利用少量的標注樣本,來引導大量的未標注樣本進行特征訓練,充分發揮了未標注樣本的作用,可以進一步輔助模型的訓練,提高模型的預測能力。
技術領域
本發明涉及深度學習技術領域,尤其涉及一種半監督學習的訓練方法、系統和計算機可讀存儲介質。
背景技術
近年來,深度學習呈現井噴式的發展,在圖像、語音、文字等多個領域的技術上,取得了全面的突破。以深度學習為主要技術的AI公司如雨后春筍般迅速崛起和發展,并帶來許多典型的AI應用場景,如人臉檢測、圖像識別、語音識別、文字識別、智能監控、場景識別等。這些AI技術已經滲透到人們工作和生活的方方面面,比如手機上的人臉解鎖、支付寶的“刷臉”支付、手機拍照時的美顏效果、人臉檢測等。這些成功的背后,除了硬件的不斷的革新,深度學習算法的不斷突破外,更為重要的是日益增大的數據規模。
在這些深度學習技術中,應用最為廣泛的還是監督學習,即訓練過程中所有的數據都是有標注的。在監督學習中,收集大量標注數據對于提高深度學習模型的識別或者檢測準確率非常重要。但是,在實際應用中,圖像的標注是一件非常費時費力的事,特別是在工業生產領域,要想使識別精度達到生產要求,收集各類樣本需要投入大量的人力物力,而且經常還受到產能的限制,使收集工作幾乎難以實現。在此背景之下,一種半監督學習技術應運而生,它旨在通過少量的標注樣本和大量的未標注數據來提供高度模型的性能。這也是本專利研究的主要內容。
到目前為止,關于半監督學習的研究工作越來越多,而且也越來越成熟。其中,一類較為常見的思路或方法,是通過增加一些規則約束項來懲罰同樣的數據在不同擾動下的一致性,或者強化數據之間的相關性。這類方法可以緩解因少量標注數據而產生的過擬合現象,并能生成一個更穩定、更魯棒的映射模型。他們甚至在一些公開的數據集上,已經取得了不亞于監督學習的成績。然而,這些方法在設計約束的時候,將所有樣本進行平等對待,忽略了標注數據和非標注數據之間的本質區別,即相比于非標注數據,標注數據具有更多的有效信息。
當前的半監督學習可大致分為三類:1)基于圖模型的半監督學習,2)基于擾動的半監督學習,3)基于生成模型的半監督學習。
1)基于圖模型的半監督學習
基于圖模型的學習方法定義了一種相似性圖。圖中的頂點表示輸入樣本,邊表示樣本之間的相似性。基于樣本之間的相似性,將有標簽的樣本在整個圖上進行不斷的傳播,從而完成對未標注樣本進行標簽預測。其中,這種相似性通常是用高斯核函數來進行計算的。簡而言之,在訓練時,這類方法除了需要優化一個帶標簽數據的監督學習損失函數外,還需要增加一個基于圖的正則化約束。目前,一些人提出一種標簽擴散的半監督學習方法:首先度量了有標簽數據與其鄰域之間的相似性,然后基于這種相似性將標簽傳遞到未標注的數據上。另一些人提出了一種子圖劃分的方法,即先在子圖上進行標簽的擴散,然后全局優化子圖之間的信息。這些方法都是通過動態的構圖相似圖來輔助進行監督學習的任務,但這些方法沒有考慮到不同擾動下模型的魯棒性和平滑性,因此通過訓練獲得到的模型在性能上要遠遠低于最新的半監督學習方法。
2)基于擾動的半監督學習
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于視睿(杭州)信息科技有限公司,未經視睿(杭州)信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910766533.3/2.html,轉載請聲明來源鉆瓜專利網。





