[發明專利]基于自監督學習的標簽比例學習模型的訓練方法和設備在審
| 申請號: | 202010067820.8 | 申請日: | 2020-01-20 |
| 公開(公告)號: | CN113139651A | 公開(公告)日: | 2021-07-20 |
| 發明(設計)人: | 劉佳斌;林宙辰 | 申請(專利權)人: | 北京三星通信技術研究有限公司;三星電子株式會社 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04;G06K9/62;G06F16/56;G06F16/58 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 錢大勇 |
| 地址: | 100028 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 學習 標簽 比例 模型 訓練 方法 設備 | ||
由于弱監督學習中的監督信息太少,所以直接通過少量監督信息訓練的分類器很難在性能上與基于監督信息構建的分類器的性能相當。本公開旨在提出通過基于自監督的方式來增強弱監督機器學習算法的分類性能的方法。弱監督學習的具體體現之一為標簽比例學習。一種標簽比例學習模型的訓練方法,包括:接收用于標簽比例學習的弱監督訓練數據;基于弱監督訓練數據來構建監督信息;以及通過基于多任務構建的損失函數、采用弱監督訓練數據和自監督訓練數據來訓練標簽比例學習模型,其中,基于多任務構建的損失函數為對應于弱監督訓練數據的弱監督損失函數與對應于監督信息的自監督損失函數的加權和。
技術領域
本公開涉及人工智能領域,更具體地,本公開涉及一種基于自監督學習的標簽比例學習模型的訓練方法和設備。
背景技術
標簽比例學習(Learning from Label Proportions,LLP)是一種特殊的弱監督分類學習算法,其特殊性在于給定樣本中的標簽不是以“屬性-標簽”的形式給出,而是以組(group)或者說包(bag)的形式組合在一起,其中,在每個包中只給出了不同類別的比例信息。該算法的最終的目的是通過這樣的信息來獲得一個基于樣本級別的分類器,以預測一個新樣本對應的類別標簽值。
現有的基于標簽比例學習算法模型中,在進行模型更新時只使用了原有的少量的基于比例的監督信息,導致無法獲得一個可以和監督模型相媲美的模型,特別是在信息比較少時,很難得到一個滿意的分類器。
發明內容
因此,本公開的各方面提供了一種用于基于自監督學習的標簽比例學習模型的訓練方法,在不進行任何額外的數據標注的情況下引入新的“監督”信息進行訓練,從而提高模型的性能。
根據本公開一個方面,提供了一種標簽比例學習模型的訓練方法,包括:訓練數據接收步驟,接收用于標簽比例學習的弱監督訓練數據;監督信息構建步驟,基于弱監督訓練數據來構建監督信息;以及訓練步驟,通過基于多任務構建的損失函數、采用弱監督訓練數據和監督信息來訓練標簽比例學習模型,其中,基于多任務構建的損失函數是基于對應于弱監督訓練數據的弱監督損失函數與對應于監督信息的自監督損失函數的。
此外,根據本公開一個方面的訓練方法,其中,基于多任務構建的損失函數為對應于弱監督訓練數據的弱監督損失函數與對應于監督信息的自監督損失函數的加權和。
此外,根據本公開一個方面的訓練方法,其中,訓練步驟還包括:通過基于第一參數的特征提取函數,對弱監督訓練數據和監督信息進行特征提取。
此外,根據本公開一個方面的訓練方法,其中,基于第一參數、弱監督訓練數據和特定于弱監督訓練數據的第二參數來構建弱監督損失函數;以及基于第一參數、監督信息和特定于監督信息的第三參數來構建弱監督損失函數。
此外,根據本公開一個方面的訓練方法,其中,訓練步驟還包括:同時更新第一參數、第二參數和第三參數。
此外,根據本公開一個方面的訓練方法,還包括:每當針對全部弱監督訓練數據完成一次訓練時,則對監督信息進行洗牌。
此外,根據本公開一個方面的訓練方法,其中,監督信息構建步驟包括:通過去除弱監督訓練數據中的比例信息來獲取無監督數據;以及基于無監督數據通過自監督方式來構建監督信息。
此外,根據本公開一個方面的訓練方法,其中,自監督方式之一為矩陣變換。
此外,根據本公開一個方面的訓練方法,其中,弱監督損失函數之一是基于比例的交叉熵損失函數。
此外,根據本公開一個方面的訓練方法,其中,基于多任務構建的損失函數中的權重用于控制弱監督損失函數與自監督損失函數的相對重要性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三星通信技術研究有限公司;三星電子株式會社,未經北京三星通信技術研究有限公司;三星電子株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010067820.8/2.html,轉載請聲明來源鉆瓜專利網。





