[發(fā)明專利]一種數(shù)據(jù)集合的價值評估及采樣方法在審
| 申請?zhí)枺?/td> | 202211147534.8 | 申請日: | 2022-09-19 |
| 公開(公告)號: | CN115525869A | 公開(公告)日: | 2022-12-27 |
| 發(fā)明(設(shè)計)人: | 李迎光;劉旭;陳耿祥;陳璐;孟慶祿;郝小忠;劉長青;許可 | 申請(專利權(quán))人: | 南京航空航天大學(xué) |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18;G06F30/23;G06F113/26;G06F119/08 |
| 代理公司: | 南京天華專利代理有限責(zé)任公司 32218 | 代理人: | 瞿網(wǎng)蘭 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 集合 價值 評估 采樣 方法 | ||
一種數(shù)據(jù)集合的價值評估及采樣方法,對數(shù)據(jù)集合的價值進行合理評估,進而用于指導(dǎo)高價值數(shù)據(jù)集合采樣。該方法首先建立用于評估數(shù)據(jù)個體價值的評估模型,并建立用于描述數(shù)據(jù)個體之間價值冗余程度的函數(shù);然后綜合考慮數(shù)據(jù)個體價值和數(shù)據(jù)個體間的價值冗余程度構(gòu)建數(shù)據(jù)集合的價值評估模型;進而可基于所述的數(shù)據(jù)集合的價值評估模型,根據(jù)用戶需要從數(shù)據(jù)采樣空間內(nèi)采樣高價值數(shù)據(jù)集合。本發(fā)明的主要用途為評估數(shù)據(jù)集合的價值和采樣高價值數(shù)據(jù)集合,可在數(shù)據(jù)驅(qū)動的分析、建模和決策任務(wù)中指導(dǎo)數(shù)據(jù)采樣,從而提升數(shù)據(jù)集合質(zhì)量,在保證目標(biāo)任務(wù)效果的前提下有效減少數(shù)據(jù)采集成本。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機科學(xué)與技術(shù)領(lǐng)域,尤其是一種數(shù)據(jù)集合價值評估技術(shù),具體地說是一種數(shù)據(jù)集合的價值評估及采樣方法。
背景技術(shù)
近年來,數(shù)據(jù)驅(qū)動建模方法廣泛應(yīng)用于計算機視覺、系統(tǒng)故障診斷、狀態(tài)預(yù)測等各個領(lǐng)域。數(shù)據(jù)驅(qū)動模型的優(yōu)越性能依賴大量訓(xùn)練數(shù)據(jù),而許多工程場景下數(shù)據(jù)的獲取往往難度大、周期長、成本高。經(jīng)前期研究發(fā)現(xiàn),對目標(biāo)任務(wù)性能起關(guān)鍵作用的數(shù)據(jù)往往是數(shù)據(jù)集合中的部分?jǐn)?shù)據(jù),噪聲、異常值等不良數(shù)據(jù)反而會對目標(biāo)任務(wù)起到反作用。因此,通過采樣高價值的數(shù)據(jù)集合能夠在保證目標(biāo)任務(wù)效果的前提下大大減少數(shù)據(jù)采集成本、降低計算復(fù)雜度。
專利CN114926204A發(fā)明一種基于數(shù)據(jù)價值的數(shù)據(jù)處理裝置及其方法,該方法計算了數(shù)據(jù)個體價值,并基于計算結(jié)果篩選出個體價值高的數(shù)據(jù)構(gòu)成集合,該方法可以給出數(shù)據(jù)個體價值之和最大的數(shù)據(jù)集合。然而實踐發(fā)現(xiàn)數(shù)據(jù)集合中的數(shù)據(jù)個體間存在冗余價值,若其中一個數(shù)據(jù)個體已包含于數(shù)據(jù)集合,鄰域中其他數(shù)據(jù)個體即使數(shù)據(jù)個體價值很高,但對數(shù)據(jù)集合的價值提升卻很小,故而數(shù)據(jù)個體價值之和并不能有效反映數(shù)據(jù)集合的價值。
因此,本發(fā)明在數(shù)據(jù)集合的價值評估模型構(gòu)建過程中綜合考慮數(shù)據(jù)個體價值和數(shù)據(jù)個體間的價值冗余程度,發(fā)明一種數(shù)據(jù)集合的價值評估及采樣方法。本發(fā)明所述方法能夠合理評估數(shù)據(jù)集合的價值,在數(shù)據(jù)驅(qū)動的分析、建模和決策任務(wù)中指導(dǎo)數(shù)據(jù)采樣,從而提升數(shù)據(jù)集合質(zhì)量,在保證目標(biāo)任務(wù)效果的前提下有效減少數(shù)據(jù)采集成本。
發(fā)明內(nèi)容
本發(fā)明的目的針對現(xiàn)有的數(shù)據(jù)價值評估不能正確反應(yīng)數(shù)據(jù)價值的問題,發(fā)明一種能合理評估數(shù)據(jù)集合價值,進而以小規(guī)模的高價值數(shù)據(jù)集合實現(xiàn)目標(biāo)任務(wù)的數(shù)據(jù)集合的價值評估及采樣方法,可在數(shù)據(jù)驅(qū)動的分析、建模和決策任務(wù)中指導(dǎo)數(shù)據(jù)采樣,從而提升數(shù)據(jù)集合質(zhì)量,在保證目標(biāo)任務(wù)效果的前提下有效減少數(shù)據(jù)收集成本。
本發(fā)明的技術(shù)方案是:
一種數(shù)據(jù)集合的價值評估方法,其特征在于,包括以下步驟:首先,建立用于評估數(shù)據(jù)個體價值的評估模型,并建立用于描述數(shù)據(jù)個體之間價值冗余程度的函數(shù);然后,綜合考慮數(shù)據(jù)個體價值和數(shù)據(jù)個體間的價值冗余程度構(gòu)建數(shù)據(jù)集合的價值評估模型。
所述的數(shù)據(jù)個體價值的評估模型的建立方法為以下之一:
通過計算數(shù)據(jù)個體對目標(biāo)任務(wù)的增益大小評估數(shù)據(jù)個體價值,進而建立用于評估數(shù)據(jù)個體價值的評估模型;
通過計算與目標(biāo)任務(wù)相似場景下的數(shù)據(jù)個體對目標(biāo)任務(wù)的增益大小評估數(shù)據(jù)個體價值,進而建立用于評估數(shù)據(jù)個體價值的評估模型;
根據(jù)數(shù)據(jù)產(chǎn)生場景的領(lǐng)域知識評估數(shù)據(jù)個體價值,進而建立用于評估數(shù)據(jù)個體價值的評估模型。
所述的增益大小計算方法可以是計算數(shù)據(jù)個體對目標(biāo)任務(wù)的沙普利值獲得。
所述的數(shù)據(jù)產(chǎn)生場景的領(lǐng)域知識評估數(shù)據(jù)個體價值,可以是根據(jù)對目標(biāo)任務(wù)的初步認(rèn)識或數(shù)據(jù)產(chǎn)生機理評估數(shù)據(jù)個體價值,如曲面測量任務(wù)中曲率半徑小的坐標(biāo)點對目標(biāo)任務(wù)而言數(shù)據(jù)個體價值更大。
所述的建立用于評估數(shù)據(jù)個體價值的評估模型所采用的方法可以是最小二乘法、高斯過程回歸、神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)算法。
所述的描述數(shù)據(jù)個體之間價值冗余程度的函數(shù)的建立方法可采用以下方式之一:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京航空航天大學(xué),未經(jīng)南京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211147534.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





