[發明專利]一種數據集合的價值評估及采樣方法在審
| 申請號: | 202211147534.8 | 申請日: | 2022-09-19 |
| 公開(公告)號: | CN115525869A | 公開(公告)日: | 2022-12-27 |
| 發明(設計)人: | 李迎光;劉旭;陳耿祥;陳璐;孟慶祿;郝小忠;劉長青;許可 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18;G06F30/23;G06F113/26;G06F119/08 |
| 代理公司: | 南京天華專利代理有限責任公司 32218 | 代理人: | 瞿網蘭 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 集合 價值 評估 采樣 方法 | ||
1.一種數據集合的價值評估方法,其特征在于,包括以下步驟:
首先,建立用于評估數據個體價值的評估模型,并建立用于描述數據個體之間價值冗余程度的函數;然后,綜合考慮數據個體價值和數據個體間的價值冗余程度構建數據集合的價值評估模型。
2.根據權利要求1所述的方法,其特征在于,數據個體價值的評估模型的建立方法為以下之一:
通過計算數據個體對目標任務的增益大小評估數據個體價值,進而建立用于評估數據個體價值的評估模型;
通過計算與目標任務相似場景下的數據個體對目標任務的增益大小評估數據個體價值,進而建立用于評估數據個體價值的評估模型;
根據數據產生場景的領域知識評估數據個體價值,進而建立用于評估數據個體價值的評估模型。
3.根據權利要求2所述的方法,其特征在于,所述的增益大小計算方法是通過計算數據個體對目標任務的沙普利值獲得。
4.根據權利要求1所述的方法,其特征在于,所述的描述數據個體之間價值冗余程度的函數的建立方法采用以下方式之一:
數據個體之間的冗余程度與數據個體之間的距離成反比,距離相近的數據個體組成的集合產生更大的冗余價值,所述距離包括歐式距離、馬氏距離;
數據個體之間的冗余程度與數據個體之間的相關性成正比,相關性更大的數據個體組成的集合產生更大的冗余價值,所述相關性的表示方式包括核函數、隸屬度函數。
5.根據權利要求1所述的方法,其特征在于,所述的數據集合的價值評估模型,計算方法為:
v′(x,S)=v(x)max{k(x,x1),…,k(x,xm)},x1,…,xm∈S
其中,v(S)為所述的數據集合的價值評估模型,n為樣本空間中潛在數據點的個數,N為由樣本空間中的n個潛在數據點組成的數據集合,S是數據集合N的數據子集,v(x)為所述的數據個體價值的評估模型,k(x,xi)(i=1,2,…,m)為所述的描述數據個體之間價值冗余程度的函數,m(0m≤n)是S中的數據個數。
6.根據權利要求1所述的方法,其特征在于,所述的描述數據個體之間價值冗余程度的函數形式為以下之一:
高斯核函數:
拉普拉斯核函數:
逆多元二次核函數:
式中xi表示第i個數據個體,xj表示第j個數據個體,σ為控制高斯核函數大小的參數,τ為控制拉普拉斯核函數大小的參數,c為控制逆多元二次核函數大小的參數。
7.一種高價值數據集合的采樣方法,其特征在于,基于權利要求1所述的數據集合的價值評估模型,根據用戶需要從數據采樣空間內采樣高價值數據集合。
8.根據權利要求7所述的方法,其特征在于,所述的根據用戶需要從數據采樣空間內采樣高價值數據集合,包括以下方式:
給定采樣數量p,基于所述的數據集合的價值評估模型,記v(Sp)表示由p個數據個體組成的集合Sp的價值,采用貪婪法或全局尋優法從數據采樣空間內采樣出使得v(Sp)最大的數據集合;
給定目標任務性能要求,基于所述的數據集合的價值評估模型,記xi表示采樣過程中的第i個數據個體,v({x1,x2,…,xi})表示i個數據個體x1,x2,…,xi組成的數據集合{x1,x2,…,xi}的價值,在數據采樣空間內,首先通過貪婪法或全局尋優法采樣出使得v({x1})最大的第一個數據個體x1;接著,通過貪婪法或全局尋優法采樣出使得v({x1,x2})-v({x1})最大的第二個數據個體x2;如集合{x1,x2}未滿足目標任務性能要求,則繼續通過貪婪法或全局尋優法采樣出使得v({x1,x2,x3})-v({x1,x2})最大的第三個數據個體x3,以此迭代采樣直至滿足目標任務性能要求。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211147534.8/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





