[發明專利]樣本評估方法、裝置、設備及計算機可讀存儲介質有效
| 申請號: | 202111096572.0 | 申請日: | 2021-09-18 |
| 公開(公告)號: | CN113554126B | 公開(公告)日: | 2022-01-07 |
| 發明(設計)人: | 馮建設;張建宇;花霖;劉桂芬;陳軍;王春洲;朱瑜鑫;趙一波;劉小雙;成建洪;熊皓 | 申請(專利權)人: | 深圳市信潤富聯數字科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 晏波 |
| 地址: | 518000 廣東省深圳市羅湖區桂園街道老圍*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 評估 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
本發明公開了一種樣本評估方法、裝置、設備及計算機可讀存儲介質,該方法包括:基于預設歷史樣本集合和預設比例,確定檢測樣本集合和待檢測樣本;從所述檢測樣本集合中隨機選取目標樣本,基于預設核函數和所述目標樣本,計算所述待檢測樣本的新穎度;基于預設重構度測試函數和所述目標樣本,計算所述待檢測樣本的可重構度;基于所述待檢測樣本的新穎度和可重構度,確定所述待檢測樣本是否為高價值樣本。本發明通過檢測樣本集合預設核函數和預設重構度測試函數,計算得到可以衡量待檢測樣本是否為高價值樣本的新穎度和可重構度,有效篩選出高價值樣本,減少低價值的相似性樣本的采集。
技術領域
本發明涉及數據處理領域,尤其涉及樣本評估方法、裝置、設備及計算機可讀存儲介質。
背景技術
在模型訓練階段,樣本集合對模型訓練的效果來說至關重要,若模型集合中存在一定量的相似性樣本,則會導致樣本的不平衡度增高,從而致使模型訓練的效率降低,因此,如何降低相似性樣本的采集量便成為了亟待解決的技術問題,而現有的樣本采集方法包括隨機采樣、周期性采樣、基于規則采樣、主動采樣以及移動窗采樣等,這些方法都無法有效降低采集到的相似性樣本的數量。
發明內容
本發明的主要目的在于提供一種樣本評估方法、裝置、設備及計算機可讀存儲介質,旨在解決現有技術方案無法通過降低相似性樣本的采集數量而提高模型訓練效率的技術問題。
此外,為實現上述目的,本發明還提供一種樣本評估方法,所述樣本評估方法包括以下步驟:
基于預設歷史樣本集合和預設比例,確定檢測樣本集合和待檢測樣本;
從所述檢測樣本集合中隨機選取目標樣本,基于預設核函數和所述目標樣本,計算所述待檢測樣本的新穎度;
基于預設重構度測試函數和所述目標樣本,計算所述待檢測樣本的可重構度;
基于所述待檢測樣本的新穎度和可重構度,確定所述待檢測樣本是否為高價值樣本。
可選地,所述基于預設核函數和所述目標樣本,計算所述待檢測樣本的新穎度的步驟包括:
將所述待檢測樣本和所述目標樣本輸入預設核函數,得到新穎度;
更換所述目標樣本,并循環所述將所述待檢測樣本和所述目標樣本輸入預設核函數,得到新穎度的步驟,得到多個新穎度;
將所述多個新穎度中的極值作為所述待檢測樣本的新穎度。
可選地,所述基于預設重構度測試函數和所述目標樣本,計算所述待檢測樣本的可重構度的步驟包括:
將所述待檢測樣本和所述目標樣本輸入包含預設測試模型的預設重構度測試函數,得到所述待檢測樣本的可重構度。
可選地,所述基于預設重構度測試函數和所述目標樣本,計算所述待檢測樣本的可重構度的步驟之后,包括:
基于第一預設檢驗函數、第二預設檢驗函數和所述檢測樣本集合,確定新穎度上限值和可重構度上限值;
若所述待檢測樣本的新穎度大于所述新穎度上限值,且所述待檢測樣本的可重構度大于所述可重構度上限值,則執行所述基于所述待檢測樣本的新穎度和可重構度,確定所述待檢測樣本是否為高價值樣本的步驟。
可選地,所述基于所述待檢測樣本的新穎度和可重構度,確定所述待檢測樣本是否為高價值樣本的步驟包括:
基于所述待檢測樣本的新穎度和可重構度,計算所述待檢測樣本的樣本價值度;
若所述樣本價值度大于第一預設閾值,則確定所述待檢測樣本是高價值樣本;
若所述樣本價值度小于或等于第一預設閾值,則確定所述待檢測樣本不是高價值樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市信潤富聯數字科技有限公司,未經深圳市信潤富聯數字科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111096572.0/2.html,轉載請聲明來源鉆瓜專利網。





