[發明專利]一種數據質檢方法、裝置、設備及存儲介質在審
| 申請號: | 202310200963.5 | 申請日: | 2023-02-28 |
| 公開(公告)號: | CN116340740A | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 周斌;陳鳳;蔣偉 | 申請(專利權)人: | 杭州天闕科技有限公司 |
| 主分類號: | G06F18/21 | 分類號: | G06F18/21;G06F18/2415;G06N20/00 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張影 |
| 地址: | 310000 浙江省杭州市西*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 質檢 方法 裝置 設備 存儲 介質 | ||
1.一種數據質檢方法,其特征在于,包括:
獲取待質檢樣本數據;
對所述待質檢樣本數據進行初始化標注,以得到初始化標簽;
利用標注有所述初始化標簽的所述待質檢樣本數據對基于預設分類算法構建的模型進行訓練以得到目標質檢模型;
利用所述目標質檢模型確定出若干個待認證錯誤數據,并輸出所述待認證錯誤數據的置信度矩陣;
根據所述置信度矩陣確定出所述待認證錯誤數據的第一位置信度與第二位置信度之間的置信度差值,然后根據所述置信度差值的倒序排序結果篩選出所述待認證錯誤數據中預設數量的錯誤數據,以得到當前質檢結果。
2.根據權利要求1所述的數據質檢方法,其特征在于,所述對所述待質檢樣本數據進行初始化標注,以得到初始化標簽,包括:
對所述待質檢樣本數據進行人工手動標注,以得到初始化標簽;
或,獲取所述待質檢樣本數據的偽標簽,以得到所述初始化標簽;
或,基于預設標注規則對所述待質檢樣本數據進行批量標注,以得到所述初始化標簽。
3.根據權利要求1所述的數據質檢方法,其特征在于,所述利用標注有所述初始化標簽的所述待質檢樣本數據對基于預設分類算法構建的模型進行訓練以得到目標質檢模型,包括:
對標注有所述初始化標簽的所述待質檢樣本數據進行預處理,以得到預處理后數據;
將所述預處理后數據劃分為訓練集和驗證集;
利用所述訓練集對基于預設分類算法構建的模型進行訓練,并利用所述驗證集對訓練后的模型進行驗證,以得到目標質檢模型。
4.根據權利要求1所述的數據質檢方法,其特征在于,所述利用標注有所述初始化標簽的所述待質檢樣本數據對基于預設分類算法構建的模型進行訓練以得到目標質檢模型,包括:
將標注有所述初始化標簽的所述待質檢樣本數據輸入至基于預設分類算法構建的模型進行前向計算,以確定出誤差值;
基于所述誤差值對所述基于預設分類算法構建的模型進行反向傳播,以得到所述基于預設分類算法構建的模型的權重值;
基于預設更新規則對所述權重值進行迭代更新以得到目標權重值;
將所述目標權重值作為所述基于預設分類算法構建的模型的當前權重值,以得到目標質檢模型。
5.根據權利要求1所述的數據質檢方法,其特征在于,所述根據所述置信度矩陣確定出所述待認證錯誤數據的第一位置信度與第二位置信度之間的置信度差值,然后根據所述置信度差值的倒序排序結果篩選出所述待認證錯誤數據中預設數量的錯誤數據,以得到當前質檢結果之后,還包括:
對所述錯誤數據重新標注標簽,并根據重新標注后的標簽更新與所述錯誤數據對應的初始化標簽,以得到更新后標簽;
利用標注有所述更新后標簽的所述待質檢樣本數據對所述目標質檢模型進行訓練,并將訓練后的目標質檢模型作為當前質檢模型;
重新執行所述利用所述目標質檢模型輸出所述待質檢樣本數據的置信度矩陣的步驟,以得到當前質檢結果。
6.根據權利要求1所述的數據質檢方法,其特征在于,所述利用所述目標質檢模型確定出若干個待認證錯誤數據,包括:
將所述待質檢數據輸入至所述目標質檢模型,以通過所述目標質檢模型輸出預測結果;
將所述初始化標簽與所述預測結果進行對比,并篩選出所述初始化標簽與所述預測結果不一致的若干個數據,以得到待認證錯誤數據。
7.根據權利要求1至6任一項所述的數據質檢方法,其特征在于,所述根據所述置信度矩陣確定出所述待認證錯誤數據的第一位置信度與第二位置信度之間的置信度差值,然后根據所述置信度差值的倒序排序結果篩選出所述待認證錯誤數據中預設數量的錯誤數據,以得到當前質檢結果之后,還包括:
當所述當前質檢結果中不存在所述錯誤數據時,根據當前的置信度矩陣確定出質檢后樣本數據的當前第一位置信度與當前第二位置信度之間的當前置信度差值;
若所述當前置信度差值小于預設閾值,則重新對所述當前置信度差值小于所述預設閾值對應的質檢后樣本數據進行質檢,以對所述質檢后樣本數據進行校驗。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州天闕科技有限公司,未經杭州天闕科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310200963.5/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





