[發明專利]一種基于元學習的主動采樣方法在審
| 申請號: | 201910725779.6 | 申請日: | 2019-08-07 |
| 公開(公告)號: | CN110569982A | 公開(公告)日: | 2019-12-13 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 南京智谷人工智能研究院有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06K9/62 |
| 代理公司: | 32282 南京匯恒知識產權代理事務所(普通合伙) | 代理人: | 夏恒霞 |
| 地址: | 210000 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類模型 回歸模型 特征空間 數據集 標記樣本 底層特征 特征獨立 主動采樣 學習 查詢 輸出 衡量 | ||
1.一種基于元學習的主動采樣方法,包括以下步驟:
(一)通過在大量已有標記的數據集上模擬進行主動學習的過程,根據Meta特征設計規則,獲取足夠量的MetaData數據;
(二)根據步驟(一)中獲取的MetaData數據訓練Meta回歸模型M;
(三)在當前主動學習任務上,根據Meta特征設計規則,計算每個未標記樣本的Meta特征;
(四)將(三)中Meta數據輸入至步驟(二)中Meta回歸模型M,選擇輸出值最大的未標記樣本,向用戶查詢真實標記;
(五)根據得到的真實標記更新分類模型C;
(六)返回步驟(三)或結束并輸出分類模型C。
2.根據權利要求1所述的一種基于元學習的主動學習方法,其特征在于:所述步驟(一)在大量已有標記的數據集上獲取MetaData數據,具體方法為:
假設當前分類模型為C,當前考慮的未標記樣本為x;設MetaData數據集結構為[Z,ΔP],其中Z為設計的Meta特征,ΔP為分類模型C在加入未標記樣本x重新訓練后,在測試集上性能前后變化值。
3.根據權利要求2所述的一種基于元學習的主動學習方法,其特征在于:Meta特征Z設計具體細節為:
1)關于數據集的傳統的元特征
a)簡單的元特征
樣本的數量及其對數,特征的數量及其對數,樣本數與特征數之比及其對數,特征數與樣本數之比及其對數;
b)統計特征
計算所有數值特征的峰度(kurtosis),取其最小值,最大值,均值,標準差;
計算所有數值特征的偏度(skewness),取其最小值,最大值,均值,標準差;
c)PCA統計特征
利用主成分分析PCA的方法,將主成分占比95%的每個成分所解釋的方差量進行求和;利用PCA將數據集降維至一維后,計算該特征值的峰度和偏度;
2)樣本本身的信息
a)數據集特征維度,所述特征維度為屬性維度;
b)已標記的數據集中正樣本的比例,負樣本的比例;
c)根據當前模型的預測值,計算未標記數據集中,模型預測為正樣本的比例,負樣本的比例;
d)在整個數據集(包含已標記和未標記)中進行聚類,獲取10個聚類中心點ai,并按照每個中心點與x的距離從小到大排序記為ai i=1,2,……10,這10個點的順序是根據不同的x變化的;計算x與上述10個代表性樣本數據點的歐氏距離,并做歸一化處理:其中xj是在整個數據集范圍內的;
e)按照當前模型對已標記數據集的預測值進行排序,選出10等分點的數據bi i=1,2,……10。計算x與上述10個代表性樣本數據點的歐氏距離,并做歸一化處理:其中xj是在整個數據集范圍內的;
f)按照當前模型對未標記數據集的預測值進行排序,選出10等分點的數據ci i=1,2,……10;計算x與上述10個代表性樣本數據點的歐氏距離,并做歸一化處理:其中xj是在整個數據集范圍內的;
3)模型本身的信息
a)在已標記數據上計算TP、FP、TN、FN的比例;
b)在已標記數據上按照當前模型對已標記數據集的預測值做歸一化處理(在整個數據集上選出最小最大值進行歸一化),并進行排序,選出10等分點的值記錄;
c)計算2)中10個值(歸一化后)的均值和方差;
d)在未標記數據上,根據當前模型的預測值,計算未標記數據集中,模型預測為正樣本的比例,負樣本的比例;
e)按照當前模型對未標記數據集的預測值做歸一化處理(在整個數據集上選出最小最大值進行歸一化),并進行排序,選出10等分點的值記錄;
f)計算e)中10個值的均值和方差;
g)將在此輪之前的五輪主動學習過程中,上述a)到f)的特征全部用作本輪的特征;
4)模型在樣本上預測的信息
首先根據當前模型C對整個數據集的預測值,做歸一化處理;
a)記錄C(x);
b)計算當前C(x)與a,b,c三組共30個樣本預測值的差;
c)將在此輪之前的五輪主動學習過程中,上述1)到2)的特征全部用作本輪的特征,注意a、b、c三組樣本都是本輪選出來的,而不是前5輪選出的;
其中ΔP為分類模型C在加入未標記樣本x重新訓練后,在測試集上性能前后變化值;分類模型的性能在本文中選取為分類模型在測試集上的準確率,針對不同任務可以選擇不同的評測標準。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京智谷人工智能研究院有限公司,未經南京智谷人工智能研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910725779.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:散煤燃用量確定方法及裝置
- 下一篇:一種軟間隔自動化滑窗方法





