[發明專利]一種基于多領域知識驅動的圖像美學質量評價方法有效
| 申請號: | 202010861877.5 | 申請日: | 2020-08-25 |
| 公開(公告)號: | CN111950655B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 牛玉貞;陳志賢;劉文犀 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/80;G06V30/19;G06N3/04 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 錢莉;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 領域 知識 驅動 圖像 美學 質量 評價 方法 | ||
1.一種基于多領域知識驅動的圖像美學質量評價方法,其特征在于:包括以下步驟:
步驟S1:設計一個密集連接網絡作為主干網絡,提取圖像的美學特征;所述密集連接網絡包括單卷積層、密集連接模塊和分類模塊;
步驟S2:設計一個半監督學習算法,同時從有標簽和無標簽圖像學習風格特征,提取圖像的風格特征;
步驟S3:使用場景語義分類數據集和情感分類數據集訓練場景語義分類模型和情感分類模型,提取圖像的語義特征和情感特征;
步驟S4:使用梯度提升算法XGBoost,對提取到的特征進行特征篩選與融合,分別訓練SVM分類模型和SVR回歸模型來預測圖像的美學質量;
所述步驟S1具體包括以下步驟:
步驟S11:對圖像進行預處理,先縮放到256*256,然后隨機裁剪成224*224;設計一個單卷積層,單卷積層由7×7卷積、BN批歸一化、Relu修正線性單元和3×3最大池化層組成;將裁減后的圖像輸入到單卷積層,將單卷積層的輸出作為密集連接模塊的輸入;
步驟S12:設計一個分類模塊作用于密集連接模塊產生的特征;分類模塊的輸入是密集連接模塊的輸出,經過一個7*7平均池化層進行特征壓縮,得到2208維的特征向量;將池化后的輸出通過一個線性變換層和softmax層輸出分類結果,其中,分類數與美學質量評價數據集AVA給定的美學評分取值的個數一致,分類結果表示的是密集連接網絡預測的評分分布,該預測評分分布為向量,向量中第i個數值代表美學評分第i個取值對應的概率;
步驟S13:設計一個美學評分分布損失,在美學質量評價數據集AVA上學習密集連接網絡的最優參數;訓練使用的優化算法是SGD,動量momentum設置為0.9,每次迭代的批量設置為32,初始學習率設置為0.01,每15輪降低到原來的10%;美學評分分布損失使用基于累計分布函數的損失函數LJs,公式如下:
其中,Mp(i)和ML(i)分別是密集連接網絡預測的評分分布和標簽的真實分布中美學評分第i個取值對應的概率,i對應美學評分取值1,2,…10,Z是評分取值的個數,即10;
使用上述主干網絡和美學評分分布損失訓練完成后,提取分類模塊中的平均池化層得到的2208維特征作為圖像的美學特征;
所述步驟S2具體包括以下步驟:
步驟S21:將風格學習任務建立為1個K路分類問題;首先,初始化1個基本網絡Fbase,該網絡采用主干網絡,將步驟S12中的分類數設為K,并且復制一個具有相同結構和參數的目標網絡Ftarget,訓練時向基本網絡和目標網絡輸入有標簽的圖像和無標簽的圖像;在每步訓練中,讓基本網絡和目標網絡共同評估1個批量樣本;基本網絡使用交叉熵分類損失Lclass和一致性損失Lcons來優化,學習基本網絡的最優參數;交叉熵分類損失Lclass用于計算基本網絡中的有標簽圖像的損失,一致性損失Lcons衡量基本網絡和目標網絡對所有圖像的預測結果的差異;網絡對圖像H的損失計算公式如下:
Loss=CH*Lclass(Fbase(H;θb),yH)+β*Lcons(Fbase(H;θb),Ftarget(H;θt))
其中,H是訓練批量樣本中的圖像,能夠選擇是有標簽的或者無標簽的;θb和θt分別是基本網絡Fbase和目標網絡Ftarget的參數,β是權重,實際設為10;Fbase(H;θb)是基本網絡的輸出,yH是風格標簽,Ftarget(H;θt)是目標網絡的輸出;CH用于判定圖像H是否有風格標簽,如果圖像H有風格標簽,CH為1,否則為CH為0,即只有帶有風格標簽yH的圖像H才會計算交叉熵分類損失Lclass;Lclass(Fbase(H;θb),yH)是基本網絡的輸出Fbase(H;θb)和風格標簽yH之間的交叉熵分類損失;對于圖像H,交叉熵分類 損失Lclass的公式如下:
Lclass=∑yHlog(Fbase(H;θb))
Lcons(Fbase(H;θb),Ftarget(H;θt))是基本網絡輸出Fbase(H;θb)和目標網絡輸出Ftarget(H;θt)之間的一致性損失,用均方誤差計算;對于圖像H,均方誤差損失的公式如下:
Lcons=(Fbase(H;θb)-Ftarget(H;θt))2
使用美學質量評價數據集AVA進行訓練,基本網絡Fbase使用SGD算法優化參數;基本網絡Fbase的參數作為目標網絡Ftarget的預訓練參數,目標網絡Ftarget的參數θt按照平均移動策略更新,更新公式如下:
是基本網絡Fbase第k步訓練更新后的參數,是目標網絡Ftarget當前的參數,α用于改變權重,α依據公式如下:
其中,ema_decay=0.999,global_step指的是全局迭代次數,α變化趨勢為從0到0.999;
步驟S22:目標網絡Ftarget訓練完成后,使用目標網絡Ftarget中的分類模塊中的平均池化層得到2208維特征,提取該特征作為圖像的風格特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010861877.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多股捻線機
- 下一篇:基于深度增強學習和語義損失的圖像質量增強方法





