[發明專利]樣本生成方法、裝置、計算機設備及存儲介質有效
| 申請號: | 201910801840.0 | 申請日: | 2019-08-28 |
| 公開(公告)號: | CN110598765B | 公開(公告)日: | 2023-05-26 |
| 發明(設計)人: | 魏東;馬鍇;鄭冶楓 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F18/211;G06N3/045;G06N3/08 |
| 代理公司: | 華進聯合專利商標代理有限公司 44224 | 代理人: | 黃晶晶 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 生成 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種樣本生成方法、裝置、計算機設備及存儲介質,該方法包括:獲取從各真實樣本中分別提取的真實類別特征向量;將真實類別特征向量與相應真實樣本的真實類別標簽向量拼接;將拼接的各拼接向量輸入至當前的樣本生成網絡中,映射得到各偽樣本;確定各偽樣本和相應的所述拼接向量之間的互信息;將各真實樣本和各偽樣本輸入當前的樣本判別網絡中,結合所述互信息,對所述樣本生成網絡和樣本判別網絡進行迭代地對抗訓練,并在對抗訓練過程中,迭代地最大化所述互信息,直至達到迭代停止條件;將各拼接向量輸入至迭代停止時的樣本生成網絡,輸出偽樣本集。本申請方案能夠生成具有類別特征的偽樣本。
技術領域
本發明涉及計算機技術領域,特別是涉及一種樣本生成方法、裝置、計算機設備及存儲介質。
背景技術
隨著科學技術的飛速發展,各種技術層出不窮,機器學習訓練技術的應用越來越廣泛,比如,分類器模型的訓練。在訓練分類器時,通常需要大量的樣本數據。然而,通常樣本數據有限,且采集費用昂貴,因此,自動生成能夠用于分類訓練的偽樣本至關重要。
傳統方法中,是生成一些“看起來像真的”的偽樣本,但是,需要針對這些偽樣本額外標注類別標簽,耗費標注成本,才能得到最終能夠用于分類訓練的訓練數據。因此,傳統方法的成本比較高。
發明內容
基于此,有必要針對傳統方法成本比較高的問題,提供一種樣本生成方法、裝置、計算機設備及存儲介質。
一種樣本生成方法,所述方法包括:
獲取從各真實樣本中分別提取的真實類別特征向量;
將真實類別特征向量與相應真實樣本的真實類別標簽向量拼接;
將拼接的各拼接向量輸入至當前的樣本生成網絡中,映射得到各偽樣本;
確定各偽樣本和相應的所述拼接向量之間的互信息;
將各真實樣本和各偽樣本輸入當前的樣本判別網絡中,結合所述互信息,對所述樣本生成網絡和樣本判別網絡進行迭代地對抗訓練,并在對抗訓練過程中,迭代地最大化所述互信息,直至達到迭代停止條件;
將各拼接向量輸入至迭代停止時的樣本生成網絡,輸出偽樣本集。
在一個實施例中,所述方法還包括:
獲取各真實樣本中的真實噪音向量;
所述將真實類別特征向量與相應真實樣本的真實類別標簽向量拼接包括:
將真實類別特征向量、與相應的真實類別標簽向量和真實噪音向量拼接;
所述確定各偽樣本和相應的所述拼接向量之間的互信息包括:
確定各偽樣本和相應真實類別特征組合向量間的互信息;所述真實類別特征組合向量,由真實類別特征向量和相應真實類別標簽向量拼接得到。
在一個實施例中,所述方法還包括:
分別提取各真實樣本的特征向量;
對所述特征向量進行特征分解,篩選出用于進行類別判別的特征向量,得到真實類別特征向量;
獲取所述特征向量篩選后剩余的特征向量,得到真實噪音向量。
在一個實施例中,所述方法還包括:
按照預設的偽類別標簽向量,從第一概率分布中采樣,得到偽類別特征向量;所述第一概率分布,由對各真實類別特征向量擬合得到;
將各偽類別特征向量與相應的偽類別標簽向量拼接,得到偽拼接向量,并將各偽拼接向量輸入至當前的樣本生成網絡中,輸出各偽樣本;
所述確定各偽樣本和相應的所述拼接向量之間的互信息包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910801840.0/2.html,轉載請聲明來源鉆瓜專利網。





