[發(fā)明專利]一種基于半監(jiān)督學習的圖像多標簽分類方法有效
| 申請?zhí)枺?/td> | 202010954339.0 | 申請日: | 2020-09-11 |
| 公開(公告)號: | CN112115995B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計)人: | 李煒;秦世祥;張樂劍;王玉龍;趙海秀;王晶 | 申請(專利權(quán))人: | 北京郵電大學 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06V10/764;G06V10/82 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 監(jiān)督 學習 圖像 標簽 分類 方法 | ||
1.一種基于半監(jiān)督學習的圖像多標簽分類方法,其特征在于,包括有:
步驟一、從訓練數(shù)據(jù)集中分別提取有標簽數(shù)據(jù)的訓練圖片和無標簽數(shù)據(jù)的訓練圖片,并由有標簽數(shù)據(jù)的訓練圖片構(gòu)成有標簽數(shù)據(jù)集、由無標簽數(shù)據(jù)的訓練圖片構(gòu)成無標簽數(shù)據(jù)集,然后使用one-hot編碼格式,為有標簽數(shù)據(jù)集、無標簽數(shù)據(jù)集中的每張訓練圖片標注對應(yīng)的標簽向量:[b1,b2,…,bc],其中,C是所有標簽總數(shù),有標簽數(shù)據(jù)集中每張訓練圖片的標簽向量中的第c個標簽值bc為0或者1,當bc=1時,表示該訓練圖片包含有第c個標簽,當bc=0時,表示該訓練圖片不包含有第c個標簽,c∈[1,C],無標簽數(shù)據(jù)中每張訓練圖片的標簽向量中的所有標簽值均為-1,表示該訓練圖片的標簽未知;
步驟二、構(gòu)建圖像多標簽分類網(wǎng)絡(luò),并將有標簽數(shù)據(jù)集和無標簽數(shù)據(jù)集中的所有訓練圖片作為訓練樣本輸入至圖像多標簽分類網(wǎng)絡(luò)中,進行半監(jiān)督訓練,所述圖像多標簽分類網(wǎng)絡(luò)的輸入是標簽數(shù)據(jù)集和無標簽數(shù)據(jù)集中的訓練圖片及其對應(yīng)的標簽向量,輸出是訓練圖片對應(yīng)各標簽的預(yù)測概率;
步驟三、為待分類圖片標注對應(yīng)的標簽向量,所述待分類圖片的標簽向量中的所有標簽值均為-1,然后將待分類圖片及其標簽向量輸入至步驟二訓練后的圖像多標簽分類網(wǎng)絡(luò),并根據(jù)輸出的待分類圖片對應(yīng)各標簽的預(yù)測概率確定待分類圖片的多個標簽,
以訓練中的第t次迭代為例,為無標簽數(shù)據(jù)集中的第j張訓練圖片生成偽標簽向量中的每個偽標簽值的具體過程如下:
步驟A1、將第j張訓練圖片輸入至第t次迭代訓練后的圖像多標簽分類網(wǎng)絡(luò),預(yù)測并記錄第j張訓練圖片在第t次迭代對應(yīng)的每個類別標簽置信度分數(shù);
步驟A2、逐一提取第j張訓練圖片的每個類別標簽置信度分數(shù)在前p次迭代中的對應(yīng)值,然后判斷第j張訓練圖片的每個類別標簽置信度分數(shù)在前p次迭代中是否排序都在所有類別標簽置信度分數(shù)的前k名之內(nèi)、且其值都大于絕對置信度閾值θ1,如果是,則將第j張訓練圖片對應(yīng)標簽的偽標簽值設(shè)為1,并繼續(xù)判斷第j張訓練圖片的下一個類別標簽置信度分數(shù);如果否,則直接繼續(xù)判斷第j張訓練圖片的下一個類別標簽置信度分數(shù),當判斷完所有類別標簽置信度分數(shù)后,繼續(xù)下一步;
步驟A3、逐一判斷第j張訓練圖片的每個類別標簽置信度分數(shù)在前p次迭代中是否都小于絕對置信度閾值θ2、且其對應(yīng)的偽標簽值不為1,如果是,則將第j張訓練圖片對應(yīng)標簽的偽標簽值設(shè)為0,然后繼續(xù)判斷下一個類別標簽置信度分數(shù);如果否,則將第j張訓練圖片對應(yīng)標簽的偽標簽值設(shè)為-1,然后繼續(xù)判斷下一個類別標簽置信度分數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟二將有標簽數(shù)據(jù)集和無標簽數(shù)據(jù)集中的所有訓練圖片作為訓練樣本輸入至圖像多標簽分類網(wǎng)絡(luò)時,圖像多標簽分類網(wǎng)絡(luò)的具體處理流程如下:
步驟21、構(gòu)建ResNet網(wǎng)絡(luò),從輸入的有標簽數(shù)據(jù)集和無標簽數(shù)據(jù)集中的每張訓練圖片中提取圖片特征,然后輸出每張訓練圖片的圖片特征向量;
步驟22、根據(jù)有標簽數(shù)據(jù)集中所有訓練圖片的標簽向量,計算用于表征所有標簽之間相互關(guān)系的相關(guān)系數(shù)矩陣:統(tǒng)計有標簽數(shù)據(jù)集中所有訓練圖片的標簽對的出現(xiàn)次數(shù),構(gòu)建所有標簽的標簽共現(xiàn)矩陣,然后使用有標簽數(shù)據(jù)集中的各標簽文本對GloVe模型進行訓練以生成每個標簽的詞嵌入向量,并由有標簽數(shù)據(jù)集中所有訓練圖片的標簽向量計算得到所有標簽的條件概率矩陣,再使用每個標簽的詞嵌入向量和所有標簽的條件概率矩陣計算得到有標簽數(shù)據(jù)集中每張訓練圖片的標簽鄰接矩陣,最后構(gòu)建GCN網(wǎng)絡(luò),并將有標簽數(shù)據(jù)集中所有訓練圖片的標簽鄰接矩陣輸入GCN網(wǎng)絡(luò),從而輸出得到所有標簽的相關(guān)系數(shù)矩陣;
步驟23、將步驟21輸出的每張訓練圖片的圖片特征向量與步驟22獲得的所有標簽的相關(guān)系數(shù)矩陣作點乘,并將點乘后的結(jié)果再通過分類器,從而獲得每張訓練圖片對應(yīng)各標簽的預(yù)測概率。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,圖像多標簽分類網(wǎng)絡(luò)使用ResNet-50在大型數(shù)據(jù)集ImageNet中的預(yù)處理模型進行初始化,并使用SGD作為優(yōu)化器、動量設(shè)定為0.9、重量衰減為10-4,初始學習率為0.01,每40個epoch衰減10倍,網(wǎng)絡(luò)總共訓練100個epoch,batch-size為64。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學,未經(jīng)北京郵電大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010954339.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在即時通信中提供即時監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學習的標簽比例學習模型的訓練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機器人表情調(diào)用方法和家用機器人
- 計算機視覺訓練系統(tǒng)和用于訓練計算機視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





