[發(fā)明專利]一種數(shù)據(jù)質(zhì)檢方法、裝置、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202310200963.5 | 申請日: | 2023-02-28 |
| 公開(公告)號: | CN116340740A | 公開(公告)日: | 2023-06-27 |
| 發(fā)明(設(shè)計)人: | 周斌;陳鳳;蔣偉 | 申請(專利權(quán))人: | 杭州天闕科技有限公司 |
| 主分類號: | G06F18/21 | 分類號: | G06F18/21;G06F18/2415;G06N20/00 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 張影 |
| 地址: | 310000 浙江省杭州市西*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 質(zhì)檢 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
本申請公開了一種數(shù)據(jù)質(zhì)檢方法、裝置、設(shè)備及存儲介質(zhì),涉及人工智能技術(shù)領(lǐng)域。該方法包括:獲取待質(zhì)檢樣本數(shù)據(jù);對待質(zhì)檢樣本數(shù)據(jù)進(jìn)行初始化標(biāo)注以得到初始化標(biāo)簽;利用標(biāo)注有初始化標(biāo)簽的待質(zhì)檢樣本數(shù)據(jù)對基于預(yù)設(shè)分類算法構(gòu)建的模型進(jìn)行訓(xùn)練以得到目標(biāo)質(zhì)檢模型;利用目標(biāo)質(zhì)檢模型確定出若干個待認(rèn)證錯誤數(shù)據(jù),并輸出待認(rèn)證錯誤數(shù)據(jù)的置信度矩陣;根據(jù)置信度矩陣確定出所述待認(rèn)證錯誤數(shù)據(jù)的第一位置信度與第二位置信度之間的置信度差值,然后根據(jù)置信度差值的倒序排序結(jié)果篩選出待認(rèn)證錯誤數(shù)據(jù)中預(yù)設(shè)數(shù)量的錯誤數(shù)據(jù),以得到當(dāng)前質(zhì)檢結(jié)果。通過本申請的技術(shù)方案,可以快速定位錯誤數(shù)據(jù),進(jìn)而提高數(shù)據(jù)質(zhì)檢效率。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)質(zhì)檢方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù)
人工智能技術(shù)主要包含3個要素:數(shù)據(jù)、算法、算力。在進(jìn)行人工智能算法開發(fā)的過程中,數(shù)據(jù)集的質(zhì)量是至關(guān)重要的,由于數(shù)據(jù)里面蘊(yùn)含了很多知識,AI(ArtificialIntelligence,人工智能)通過錯誤的數(shù)據(jù)會學(xué)習(xí)到錯誤的知識,通過正確的數(shù)據(jù)可以學(xué)習(xí)到正確的知識,因此如何提升數(shù)據(jù)的質(zhì)量就是重中之重的問題。傳統(tǒng)的提升數(shù)據(jù)質(zhì)量的方法就是人工手動的對所有樣本進(jìn)行標(biāo)注,然后進(jìn)行抽樣檢查,大量的數(shù)據(jù)需要消耗大量的人力去做標(biāo)注,且人工標(biāo)注是存在誤差的,抽樣也只能隨機(jī)檢查部分?jǐn)?shù)據(jù)的質(zhì)量,并不能篩查出所有有問題的數(shù)據(jù),因此難以對數(shù)據(jù)進(jìn)行有效的質(zhì)檢。
綜上,如何篩查出所有有問題的數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行重點(diǎn)處理,提升數(shù)據(jù)質(zhì)量是目前有待解決的問題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種數(shù)據(jù)質(zhì)檢方法、裝置、設(shè)備及存儲介質(zhì),能夠篩查出所有有問題的數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行重點(diǎn)處理,提升數(shù)據(jù)質(zhì)量。其具體方案如下:
第一方面,本申請公開了一種數(shù)據(jù)質(zhì)檢方法,包括:
獲取待質(zhì)檢樣本數(shù)據(jù);
對所述待質(zhì)檢樣本數(shù)據(jù)進(jìn)行初始化標(biāo)注,以得到初始化標(biāo)簽;
利用標(biāo)注有所述初始化標(biāo)簽的所述待質(zhì)檢樣本數(shù)據(jù)對基于預(yù)設(shè)分類算法構(gòu)建的模型進(jìn)行訓(xùn)練以得到目標(biāo)質(zhì)檢模型;
利用所述目標(biāo)質(zhì)檢模型確定出若干個待認(rèn)證錯誤數(shù)據(jù),并輸出所述待認(rèn)證錯誤數(shù)據(jù)的置信度矩陣;
根據(jù)所述置信度矩陣確定出所述待認(rèn)證錯誤數(shù)據(jù)的第一位置信度與第二位置信度之間的置信度差值,然后根據(jù)所述置信度差值的倒序排序結(jié)果篩選出所述待認(rèn)證錯誤數(shù)據(jù)中預(yù)設(shè)數(shù)量的錯誤數(shù)據(jù),以得到當(dāng)前質(zhì)檢結(jié)果。
可選的,所述對所述待質(zhì)檢樣本數(shù)據(jù)進(jìn)行初始化標(biāo)注,以得到初始化標(biāo)簽,包括:
對所述待質(zhì)檢樣本數(shù)據(jù)進(jìn)行人工手動標(biāo)注,以得到初始化標(biāo)簽;
或,獲取所述待質(zhì)檢樣本數(shù)據(jù)的偽標(biāo)簽,以得到所述初始化標(biāo)簽;
或,基于預(yù)設(shè)標(biāo)注規(guī)則對所述待質(zhì)檢樣本數(shù)據(jù)進(jìn)行批量標(biāo)注,以得到所述初始化標(biāo)簽。
可選的,所述利用標(biāo)注有所述初始化標(biāo)簽的所述待質(zhì)檢樣本數(shù)據(jù)對基于預(yù)設(shè)分類算法構(gòu)建的模型進(jìn)行訓(xùn)練以得到目標(biāo)質(zhì)檢模型,包括:
對標(biāo)注有所述初始化標(biāo)簽的所述待質(zhì)檢樣本數(shù)據(jù)進(jìn)行預(yù)處理,以得到預(yù)處理后數(shù)據(jù);
將所述預(yù)處理后數(shù)據(jù)劃分為訓(xùn)練集和驗證集;
利用所述訓(xùn)練集對基于預(yù)設(shè)分類算法構(gòu)建的模型進(jìn)行訓(xùn)練,并利用所述驗證集對訓(xùn)練后的模型進(jìn)行驗證,以得到目標(biāo)質(zhì)檢模型。
可選的,所述利用標(biāo)注有所述初始化標(biāo)簽的所述待質(zhì)檢樣本數(shù)據(jù)對基于預(yù)設(shè)分類算法構(gòu)建的模型進(jìn)行訓(xùn)練以得到目標(biāo)質(zhì)檢模型,包括:
將標(biāo)注有所述初始化標(biāo)簽的所述待質(zhì)檢樣本數(shù)據(jù)輸入至基于預(yù)設(shè)分類算法構(gòu)建的模型進(jìn)行前向計算,以確定出誤差值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州天闕科技有限公司,未經(jīng)杭州天闕科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310200963.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 質(zhì)檢方法、質(zhì)檢設(shè)備及質(zhì)檢系統(tǒng)
- 一種話務(wù)錄音的質(zhì)檢方法及裝置
- 一種智能凈水機(jī)線上質(zhì)檢方法、系統(tǒng)
- 質(zhì)檢方法、裝置、設(shè)備及存儲介質(zhì)
- 產(chǎn)品質(zhì)檢方法、裝置、設(shè)備及計算機(jī)可讀存儲介質(zhì)
- 一種視頻質(zhì)檢方法、系統(tǒng)及終端設(shè)備
- 智能質(zhì)檢方法、系統(tǒng)、介質(zhì)以及設(shè)備
- 一種語音質(zhì)檢方法、裝置、質(zhì)檢設(shè)備及可讀存儲介質(zhì)
- AI質(zhì)檢方法,裝置,系統(tǒng),電子設(shè)備及存儲介質(zhì)
- 基于知識階層的數(shù)據(jù)質(zhì)檢的方法、裝置及計算機(jī)設(shè)備





