[發(fā)明專利]一種訓練數(shù)據(jù)的處理方法及裝置在審
| 申請?zhí)枺?/td> | 202110046161.4 | 申請日: | 2021-01-14 |
| 公開(公告)號: | CN113591892A | 公開(公告)日: | 2021-11-02 |
| 發(fā)明(設計)人: | 張珍茹;張倩汶;曹云波;張敏靈 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京同達信恒知識產(chǎn)權代理有限公司 11291 | 代理人: | 朱佳 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 訓練 數(shù)據(jù) 處理 方法 裝置 | ||
1.一種訓練數(shù)據(jù)的處理方法,其特征在于,包括:
獲取原始訓練數(shù)據(jù)集,其中,所述原始訓練數(shù)據(jù)集中包含的各訓練樣本,分別對應有至少兩個候選標記;
分別確定所述各訓練樣本對應的各候選標記的標記置信度,并根據(jù)所述各候選標記的標記置信度,分別對所述各訓練樣本對應的各候選標記進行過濾;
對過濾后的各候選標記對應的各訓練樣本進行采樣以使不同類別的候選標記所對應的訓練樣本數(shù)量滿足預設數(shù)量差值條件,獲得目標訓練數(shù)據(jù)集;
利用所述目標訓練數(shù)據(jù)集進行模型訓練。
2.如權利要求1所述的方法,其特征在于,分別確定所述各訓練樣本對應的各候選標記的標記置信度,具體包括:
針對所述各訓練樣本中任意一個訓練樣本時,通過執(zhí)行以下步驟獲得所述任意一個訓練樣本對應的各候選標記的標記置信度:
確定與所述任意一個訓練樣本距離最近的k個訓練樣本,作為所述任意一個訓練樣本的k近鄰集合,其中k為大于等于1的正整數(shù);
根據(jù)所述任意一個訓練樣本的k近鄰集合,確定所述任意一個訓練樣本的權重向量,其中,所述權重向量大小為1*m,m為所述原始訓練數(shù)據(jù)集中包含的各訓練樣本的數(shù)量,所述權重向量中每個元素取值分別表征所述原始訓練數(shù)據(jù)集中各訓練樣本對所述任意一個訓練樣本的重構影響程度;
根據(jù)所述任意一個訓練樣本的權重向量,分別確定所述任意一個訓練樣本對應的各候選標記的標記置信度。
3.如權利要求2所述的方法,其特征在于,根據(jù)所述任意一個訓練樣本的k近鄰集合,確定所述任意一個訓練樣本的權重向量,具體包括:
確定所述任意一個訓練樣本的特征向量,以及所述權重向量中各元素取值分別與對應訓練樣本的乘積的加和;
根據(jù)所述任意一個訓練樣本的特征向量與所述加和的差值,建立非負線性最小二乘的優(yōu)化目標函數(shù),并根據(jù)所述k近鄰集合對應所述權重向量中的元素取值大于等于0,非k近鄰集合的其它訓練樣本對應的所述權重向量中元素取值等于0,建立所述優(yōu)化目標函數(shù)的約束條件;
根據(jù)所述約束條件,確定所述優(yōu)化目標函數(shù)的最優(yōu)解,并將所述最優(yōu)解作為所述任意一個訓練樣本的權重向量。
4.如權利要求2或3所述的方法,其特征在于,根據(jù)所述任意一個訓練樣本的權重向量,分別確定所述任意一個訓練樣本對應的各候選標記的標記置信度,具體包括:
根據(jù)所述k近鄰集合中各訓練樣本對應所述權重向量中的元素取值,以及所述任意一個訓練樣本對應的各候選標記分別在所述k近鄰集合中各訓練樣本中的標記置信度,分別確定所述任意一個訓練樣本對應的各候選標記的標記置信度;
其中,每個訓練樣本對應的各候選標記的標記置信度的初始值為1。
5.如權利要求2所述的方法,其特征在于,根據(jù)所述各候選標記的標記置信度,分別對所述各訓練樣本對應的各候選標記進行過濾,具體包括:
分別根據(jù)所述各訓練樣本的權重向量中各元素取值的平均值,獲得所述各訓練樣本所對應的置信度閾值;
分別針對所述各訓練樣本,過濾掉標記置信度小于對應的置信度閾值的候選標記。
6.如權利要求5所述的方法,其特征在于,進一步包括:
若確定所述各訓練樣本對應的各候選標記的標記置信度均小于對應的置信度閾值,則保留標記置信度最大的候選標記,并過濾掉除標記置信度最大的其它候選標記。
7.如權利要求1所述的方法,其特征在于,對過濾后的各候選標記對應的各訓練樣本進行采樣以使不同類別的候選標記所對應的訓練樣本數(shù)量滿足預設數(shù)量差值條件,獲得目標訓練數(shù)據(jù)集,具體包括:
根據(jù)過濾后的各候選標記所對應的訓練樣本的數(shù)量,分別確定所述過濾后的各候選標記的類別不平衡率;
根據(jù)確定的各類別不平衡率,確定不平衡率閾值,并將類別不平衡率大于所述不平衡率閾值的候選標記的類別作為小類;
分別確定各小類的待采樣數(shù)量;
根據(jù)預設采樣方法,分別針對所述各小類,采樣獲得相應待采樣數(shù)量的訓練樣本,并將采樣獲得的訓練樣本加入到過濾后的所述原始訓練數(shù)據(jù)集中,獲得目標訓練數(shù)據(jù)集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110046161.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





