[發明專利]一種基于跨模態協同推理的圖像美學質量評價方法在審
| 申請號: | 202011609604.8 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112580636A | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 阮杰;高飛 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/46;G06K9/62;G06T7/11 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 跨模態 協同 推理 圖像 美學 質量 評價 方法 | ||
1.一種基于跨模態協同推理的圖像美學質量評價的方法,其特征在于能夠同時利用圖像內容和文本評論進行圖像美學質量評價,具體包括如下步驟:
步驟(1)提取多尺度視覺特征:利用目標檢測基準網絡檢測圖像中的目標區域,基于ROI池化提取區域特征、關聯特征、目標特征組成多尺度視覺特征;
步驟(2)基于圖網絡提取視覺結構特征:利用圖模型建模圖像結構,進而提取視覺結構特征;
步驟(3)提取視覺聚合特征與文本聚合特征:利用Transformer模型提取多尺度文本特征后,利用協同注意力模塊對多尺度視覺特征和多尺度文本特征進行重構,挖掘兩者之間的關聯關系,提取視覺聚合特征與文本聚合特征;
步驟(4)多模態低秩雙線性特征融合以及多任務美學質量評價:將視覺結構特征與視覺聚合特征、文本聚合特征進行低秩雙線性特征融合,并利用多任務學習思想,提升圖像美學質量評價性能。
2.根據權利要求1所述的一種基于跨模態協同推理的圖像美學質量評價的方法,其特征在于步驟(1)所述的提取多尺度視覺特征,具體實現如下:
1-1采用目標檢測基準網絡,檢測圖像中的目標區域,然后對目標區域按照非極大抑制準則進行合并,保留主目標物的同時減少目標物區域個數;之后對于各個目標物區域,進行ROI池化,得到各個目標物區域對應的目標特征;對于兩兩目標物之間,選取能夠包含兩兩目標物的最小局部區域,然后按照非極大抑制準則進行整合,獲得目標物關聯區域;對于目標物關聯區域,進行ROI池化,獲得目標物之間關聯關系的關聯特征;
1-2選擇包含多個主目標物的區域,基于ROI池化,獲得區域特征表達;由區域特征、關聯特征、目標特征組成多尺度視覺特征。
3.根據權利要求2所述的一種基于跨模態協同推理的圖像美學質量評價的方法,其特征在于步驟(2)所述的基于圖網絡提取視覺結構特征,具體實現如下:
2-1將目標特征、關聯特征、區域特征對應的圖像塊作為節點,圖像塊對應的深度特征、重心位置、面積作為節點屬性特征;
對所有節點構建全連接無向圖,將各個圖像塊之間的IoU、歸一化空間距離、特征表達之間的余弦距離作為邊屬性特征;將整幅輸入圖像全局池化得到的特征作為全局屬性特征;
2-2采用DIFFPOOL池化方法將該全連接無向圖及其屬性特征矩陣進行聚合,得到視覺結構特征量;所述的屬性特征矩陣包括節點屬性特征、邊屬性特征和全局屬性特征;
DIFFPOOL基于輸入全連接無向圖表示的鄰接矩陣A及獲取的屬性特征矩陣X,利用池化型圖網絡GNNPOOL預測特征匯聚權重S,進行特征嵌入;鄰接矩陣A與屬性特征矩陣X在第l+1層的計算表達為:
(A(l+1),X(l+1))=DiffPool(A(l),X(l)), (1)
計算過程為:
S(l)=softmax(GNNl,pool(A(l),X(l))), (2)
其中,S(l)為在第l層的特征匯聚權重,分別為第l+1層的鄰接矩陣和屬性特征矩陣;
經過L層圖網絡之后,得到最終的視覺結構特征的表達向量X(i),用于圖像美學質量的預測。
4.根據權利要求3所述的一種基于跨模態協同推理的圖像美學質量評價的方法,其特征在于步驟(3)所述的提取視覺聚合特征與文本聚合特征,具體實現如下:
3-1采用在英文文檔分類任務中預訓練得到的Transformer模型,從文本評論中提取詞語、短語、句子的多層次特征表達,構成多尺度文本特征,用于描述圖像美學相關的因素,從而從不同層次對圖像美學進行表達;
3-2利用協同注意力模塊挖掘多尺度視覺特征和多尺度文本特征之間的關聯關系;設多尺度視覺特征為X,文本注意力引導矩陣為g,協同注意力模塊的計算公式表示為則這里用的計算流程為:
其中,v和t分別為輸出的視覺聚合特征和文本聚合特征。
5.根據權利要求4所述的一種基于跨模態協同推理的圖像美學質量評價的方法,其特征在于步驟(4)所述的多模態低秩雙線性特征融合以及多任務美學質量評價,具體實現如下:
4-1基于雙線性池化方法將不同分支得到的特征進行融合
采用低秩雙線性特征融合方法,假設視覺結構特征X(L)為s∈Rm,視覺聚合特征為υ∈Rn,文本聚合特征為t∈Rk,采用三個低秩映射將其映射到同一空間中:
其中,U∈Rm×c,V∈Rn×c,W∈Rk×c是低秩映射矩陣,c是輸出特征維度,為Hadamard積,即兩個向量之間元素之間的點乘;融合后的特征可以用于后續的美學質量預測;
4-2采用多任務學習思想對融合后的特征,同時預測美學二分類標簽、平均分數、分數分布、內容和風格;分別對應采用交叉熵損失、L2損失、推土機距離損失、多標簽交叉熵損失和單標記交叉熵損失;在訓練階段,將所有損失進行加權求和用于指導整個模型的訓練;模型完成訓練后,在測試階段,對于給定輸入圖像及其對應的文本評論,模型輸出圖像對應的美學二分類標簽、平均分數、分數分布、內容和風格。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011609604.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:半導體存儲裝置及其測試方法
- 下一篇:一種高原監察無人機用輔助裝置





