[發明專利]混合使用多種標記方式的主動眾包學習方法及應用方法在審
| 申請號: | 201911241937.7 | 申請日: | 2019-12-06 |
| 公開(公告)號: | CN111027712A | 公開(公告)日: | 2020-04-17 |
| 發明(設計)人: | 孫廣中;潘軼功;張賓賓 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06F16/55 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;鄭哲 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 混合 使用 多種 標記 方式 主動 學習方法 應用 方法 | ||
1.一種混合使用多種標記方式的主動眾包學習方法,其特征在于,包括:
初始化階段:從訓練數據集的已標記數據集中隨機選取指定數量的數據來訓練多標簽分類模型;
迭代階段:每次迭代過程中,根據查詢策略,選擇一個標記者w*與對應的查詢類型S*,并從訓練數據集的未標記數據集中選擇一個實例x*;根據標記者w*的類型,選擇包含正實例與負實例兩個選項,或者正實例、負實例與不確定三個選項的查詢類型S*去查詢標記者w*,得到實例x*的標簽y*;利用實例x*及其標簽y*更新已標記數據集,進而更新多標簽分類模型;按照以上方式不斷迭代,直至多標簽分類模型的準確度達到要求;其中,每一實例是由圖像的特征向量組成。
2.根據權利要求1所述的一種混合使用多種標記方式的主動眾包學習方法,其特征在于,訓練數據集D包括已標記的數據Dl和未標記的數據集Du;
已標記數據集Dl={(x1,y1),(x2,y2),...,(xl,yl)}的一個實例xj∈RD,其中j是特征向量維度的表示,D是特征向量的維數,RD表示一個D維實數集合,l是已標記實例的個數,y為實例x對應的標簽,下標為實例及對應標簽的序號;
未標記的數據集Du={xl+1,...,xn},其中,n是所有實例的個數。
3.根據權利要求2所述的一種混合使用多種標記方式的主動眾包學習方法,其特征
在于,根據查詢策略,從未標記數據集中選擇一個最優價值的實例x*:
其中,F為衡量指標。
4.根據權利要求1或2或3所述的一種混合使用多種標記方式的主動眾包學習方法,其特征在于,
標記者w*包含保守的標記者與大膽猜測的標記者兩種類型;查詢類型S*∈{0,1},S*=0代表傳統查詢類型,包含正實例與負實例兩個選項,S*=1時,包含正實例、負實例與不確定三個選項;
保守的標記者對應的查詢類型S*=0;大膽猜測的標記者對應的查詢類型S*=1。
5.根據權利要求4所述的一種混合使用多種標記方式的主動眾包學習方法,其特征在于,該方法還包括,對實例進行評價的方式,其包括:
定義實例x的不確定性:
其中,p(y=1|x)表示實例x的標簽為正實例的概率,式子中的冒號表示定義的意思;
定義實例x的信息量:如果標記者正確的標記了實例x,則信息量為Ic(x);如果標記者錯誤的標記了實例x,則信息量為Ie(x);如果標記者將實例x標記為不確定,則信息量為Iu(x);各情況下的信息量表示為:
Ie(x):=U(x)-1
Iu(x):=0
采用期望信息量作為最終的評價準則:
其中,用來估計標記者wt給出不確定的概率,分別用來估計標記者wt用S標記實例x的正確率、錯誤率;S與S*含義相同,均表示查詢類型。
6.一種圖像分類方法,其特征在于,包括:利用權利要求1-5任一項所述的一種混合使用多種標記方式的主動眾包學習方法獲得多標簽分類模型,對待分類的圖像進行特征提取,再將獲得的特征向量輸入至多標簽分類模型,得到圖像分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911241937.7/1.html,轉載請聲明來源鉆瓜專利網。





