[發明專利]一種進行人物重標記的自步-協同訓練學習方法有效
| 申請號: | 201710413595.7 | 申請日: | 2017-06-05 |
| 公開(公告)號: | CN107463996B | 公開(公告)日: | 2021-11-16 |
| 發明(設計)人: | 孟德宇;謝琦;馬凡;李梓娜;趙謙 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06K9/62 |
| 代理公司: | 北京睿智保誠專利代理事務所(普通合伙) 11732 | 代理人: | 周新楣 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 進行 人物 標記 協同 訓練 學習方法 | ||
一種自步?協同訓練學習方法。首先,獲取目標問題的來自兩個視野的數據,包括少量的標記數據和大量的未標記數據,初始化模型;在兩個視野上分別確立相應的優化目標;在每個視野的損失函數里嵌入自步正則項,實現該視野下的穩健學習;通過一個正則項將兩個視野相關聯;得到一個嵌入穩健學習機制且具有模型解釋的多視野半監督自步?協同訓練模型;應用目標領域的少量標注數據和大量無標注數據及半監督多視野學習模型,得到無標注數據的高質量標注,同時可以得到兩個視野下的可靠學習器。本發明旨在給傳統的協同訓練算法提供一種“有替換”模式的穩健學習模型,使得目標領域缺少標注的數據得到更準確、高質量的標注。
技術領域
本發明涉及一種多視野半監督學習模型與方法,具體涉及一種新型自步-協同訓練模型與學習方法。
背景技術
互聯網中有大量的實時數據,例如新聞,圖片,視頻等,但是這些數據大部分只有關于事件較為模糊的描述,有些甚至完全沒有標注信息。當我們要進行查詢或者分類任務時,在傳統的機器學習算法中,這部分無標注信息或者說弱標注數據基本上沒有被使用,造成了可用信息的大量損失。這類數據的特點是有大量的無標注數據,可獲得的標注數據有限。因此,如何挖掘無標注數據中的信息成為了機器學習領域中近年來興起的一項技術。在充分利用標注數據的前提下,盡可能準確地從無標注數據中提取信息,進而對大量的無標注數據進行高質量的標注。
半監督學習是一種利用標注數據的監督信息、從無標注數據中提取結構信息的一類學習方法。根據目標任務的不同半監督學習可以分為半監督分類,半監督聚類,半監督回歸,而且基于不同的假設已經有很多相關的半監督方法,在實際問題中取得了很好的效果。協同訓練方法是其中一種非常經典的多視野半監督學習方法。該方法作用于有兩個視野的數據上,兩個視野下的特征能夠互相補充,共同描述一個樣例。這類數據分布特別廣泛,例如對于某個圖片數據,圖片的內容的和圖片的鏈接可以作為描述該圖片的兩個視野。此方法基于不同視野相互協助的原理,利用少量的標注數據在兩個視野下分別訓練兩個弱學習器,然后在單個視野下用相應的學習器給無標注數據加上偽標注,選擇其中的一部分偽標注數據作為另一個視野的訓練數據,兩個視野下的學習器分別標記,相互補充,進而可以充分提升兩個學習器的學習效果,最后得到兩個視野的強學習器,可以對無標注數據進行高質量的標注。
基于協同訓練的原理也衍生出了一系列多視野半監督學習方法,主要可以分為兩大類:一類是保持協同訓練的迭代訓練過程,但是在標記樣本時采用了不同的置信標準;另一類是將另一個視野的信息作為正則項嵌入當前視野的目標函數里。然而傳統的協同訓練算法仍存在以下問題。首先,其是一種非常啟發式的算法,該方法需要預先對學習過程的偽標注準確性進行假設,即錯誤標注的樣例可以被學習器識別出來,或者說每次學習器給出的標注都是非常可靠的。基于這樣的假設,大多數協同訓練算法在對無標注數據進行偽標注之后不再重新標注。然而上述的主觀性假設不僅無法驗證,而且基本上很難滿足,因為在實際訓練過程中,最開始的學習器僅使用了少量的標注數據進行訓練,利用這些弱學習器給出的偽標注可信度不高,從而進一步降低了學習器的標注精度。另外,算法采用“無替換”數據標注更新模式,即數據偽標注后即始終將其加入學習過程。然而,如上所說,在半監督的學習過程中,特別是在學習初期,很多偽標注可靠度不高,標注很可能發生錯誤。因此,更合理的更新模式應為“有替換”方式,即算法應及時替換掉標注錯誤的樣本。此外,對于一個機器學習方法來說,擁有一個可以解釋其本質內涵的機器學習優化模型非常重要,這也是機器學習的基本三要素之一(即,訓練數據,決策函數,表現度量或優化目標),而傳統的協同訓練方法基本都缺乏一個完善的模型解釋。
因此,為了實現對多視野數據的高質量標注,提供一種能夠穩健學習且具有優化模型的多視野協同訓練方法,是機器學習半監督學習領域非常重要的問題。本發明很好的解決了目前多視野協同訓練存在的這些問題。
發明內容
本發明的目的在于提供一種新型的實現多視野數據高質量標注的自步-協同訓練學習方法。
為達到上述目的,本發明采用的技術方案是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710413595.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:整體臥式熱泵熱水機
- 下一篇:月餅包裝盒(珍月禮)





