[發明專利]基于多模態的圖像標注裝置以及方法有效

申請號：	201310251807.8	申請日：	2013-06-24
公開（公告）號：	CN104239359B	公開（公告）日：	2017-09-01
發明（設計）人：	劉曦;劉汝杰	申請（專利權）人：	富士通株式會社
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京三友知識產權代理有限公司11127	代理人：	陶海萍,田勇
地址：	日本神奈***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于多模態圖像標注裝置以及方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及圖像處理技術領域，尤其涉及一種基于多模態（Multi-modal）后融合（Late Fusion）的圖像標注（Image Tagging）裝置以及方法。

背景技術

隨著Web2.0技術的快速發展，圖像的數量正呈爆炸式增長，快速瀏覽和搜索所需圖像因此變得費時費力。為了能有效減速瀏覽圖像，圖像標注技術變得越來越重要且必不可少。

傳統的圖像標注方法通常只考慮一個模態（Modal），然而單個模態無法為表征圖像提供充分的信息，并且越來越多的研究也表明同時考慮多個模態是有益的，因此融合圖像多個模態的圖像標注技術就顯得越來越重要。

基于搜索的圖像標注方法是最近提出的一種融合多模態的圖像標注方法。它先歸一化每種模態，然后對所有歸一化的模態直接拼接以得到單一模態，再利用拼接的單一模態找出近鄰圖像并統計所有近鄰圖像的標簽以得出最終標注結果。

但是，發明人發現該方法只是簡單的對所有歸一化的模態直接進行拼接，但是由于各個模態的尺度問題，很難通過歸一化實現各個模態在尺度上的統一，因此它無法有效地對多個模態進行融合。

應該注意，上面對技術背景的介紹只是為了方便對本發明的技術方案進行清楚、完整的說明，并方便本領域技術人員的理解而闡述的。不能僅僅因為這些方案在本發明的背景技術部分進行了闡述而認為上述技術方案為本領域技術人員所公知。

下面列出了對于理解本發明和常規技術有益的文獻，通過引用將它們并入本文中，如同在本文中完全闡明了一樣。

[參考文獻1]：P.Gehler and S.Nowozin.On feature combination for multiclass object classification,In Proceedings of International Conference on Computer Vision,2009.

[參考文獻2]：X.Li,C.Snoek,and M.Worring.Learning social tag relevance by neighbor voting,IEEE Transactions on Multimedia,1310-1322,2009.

發明內容

本發明實施例提供一種基于多模態的圖像標注裝置以及方法，目的在于對圖像的多個模態進行有效地融合，獲得更魯棒（Robust）且更精確的圖像標注結果。

根據本發明實施例的一個方面，提供一種基于多模態的圖像標注裝置，所述圖像標注裝置包括：

分數生成單元，利用訓練圖像以及圖像的多個模態，為查詢圖像生成多組關于標注詞典所有標簽的第一分數；

后融合單元，將獲得的多組分數進行融合來獲得關于所有標簽的最終分數；

標簽選擇單元，根據所有標簽的最終分數，選擇具有較大標簽分數的一個或多個標簽作為所述查詢圖像的標簽。

根據本發明實施例的另一個方面，提供一種基于多模態的圖像標注方法，所述圖像標注方法包括：

利用訓練圖像以及圖像的多個模態，為查詢圖像生成多組關于標注詞典所有標簽的第一分數；

將獲得的多組分數進行融合來獲得關于所有標簽的最終分數；

根據所有標簽的最終分數，選擇具有較大標簽分數的一個或多個標簽作為所述查詢圖像的標簽。

本發明的有益效果在于：在利用多個模態的同時采用后融合的方式，可以避免各個模態之間的尺度問題從而實現對多個模態進行有效地融合。通過對圖像的多個模態進行有效地融合，相比于單模態下的圖像標注方法將能獲得更魯棒且精確的圖像標注結果。