[發明專利]基于多模態的圖像標注裝置以及方法有效
| 申請號: | 201310251807.8 | 申請日: | 2013-06-24 |
| 公開(公告)號: | CN104239359B | 公開(公告)日: | 2017-09-01 |
| 發明(設計)人: | 劉曦;劉汝杰 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京三友知識產權代理有限公司11127 | 代理人: | 陶海萍,田勇 |
| 地址: | 日本神奈*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多模態 圖像 標注 裝置 以及 方法 | ||
技術領域
本發明涉及圖像處理技術領域,尤其涉及一種基于多模態(Multi-modal)后融合(Late Fusion)的圖像標注(Image Tagging)裝置以及方法。
背景技術
隨著Web2.0技術的快速發展,圖像的數量正呈爆炸式增長,快速瀏覽和搜索所需圖像因此變得費時費力。為了能有效減速瀏覽圖像,圖像標注技術變得越來越重要且必不可少。
傳統的圖像標注方法通常只考慮一個模態(Modal),然而單個模態無法為表征圖像提供充分的信息,并且越來越多的研究也表明同時考慮多個模態是有益的,因此融合圖像多個模態的圖像標注技術就顯得越來越重要。
基于搜索的圖像標注方法是最近提出的一種融合多模態的圖像標注方法。它先歸一化每種模態,然后對所有歸一化的模態直接拼接以得到單一模態,再利用拼接的單一模態找出近鄰圖像并統計所有近鄰圖像的標簽以得出最終標注結果。
但是,發明人發現該方法只是簡單的對所有歸一化的模態直接進行拼接,但是由于各個模態的尺度問題,很難通過歸一化實現各個模態在尺度上的統一,因此它無法有效地對多個模態進行融合。
應該注意,上面對技術背景的介紹只是為了方便對本發明的技術方案進行清楚、完整的說明,并方便本領域技術人員的理解而闡述的。不能僅僅因為這些方案在本發明的背景技術部分進行了闡述而認為上述技術方案為本領域技術人員所公知。
下面列出了對于理解本發明和常規技術有益的文獻,通過引用將它們并入本文中,如同在本文中完全闡明了一樣。
[參考文獻1]:P.Gehler and S.Nowozin.On feature combination for multiclass object classification,In Proceedings of International Conference on Computer Vision,2009.
[參考文獻2]:X.Li,C.Snoek,and M.Worring.Learning social tag relevance by neighbor voting,IEEE Transactions on Multimedia,1310-1322,2009.
發明內容
本發明實施例提供一種基于多模態的圖像標注裝置以及方法,目的在于對圖像的多個模態進行有效地融合,獲得更魯棒(Robust)且更精確的圖像標注結果。
根據本發明實施例的一個方面,提供一種基于多模態的圖像標注裝置,所述圖像標注裝置包括:
分數生成單元,利用訓練圖像以及圖像的多個模態,為查詢圖像生成多組關于標注詞典所有標簽的第一分數;
后融合單元,將獲得的多組分數進行融合來獲得關于所有標簽的最終分數;
標簽選擇單元,根據所有標簽的最終分數,選擇具有較大標簽分數的一個或多個標簽作為所述查詢圖像的標簽。
根據本發明實施例的另一個方面,提供一種基于多模態的圖像標注方法,所述圖像標注方法包括:
利用訓練圖像以及圖像的多個模態,為查詢圖像生成多組關于標注詞典所有標簽的第一分數;
將獲得的多組分數進行融合來獲得關于所有標簽的最終分數;
根據所有標簽的最終分數,選擇具有較大標簽分數的一個或多個標簽作為所述查詢圖像的標簽。
本發明的有益效果在于:在利用多個模態的同時采用后融合的方式,可以避免各個模態之間的尺度問題從而實現對多個模態進行有效地融合。通過對圖像的多個模態進行有效地融合,相比于單模態下的圖像標注方法將能獲得更魯棒且精確的圖像標注結果。
參照后文的說明和附圖,詳細公開了本發明的特定實施方式,指明了本發明的原理可以被采用的方式。應該理解,本發明的實施方式在范圍上并不因而受到限制。在所附權利要求的精神和條款的范圍內,本發明的實施方式包括許多改變、修改和等同。
針對一種實施方式描述和/或示出的特征可以以相同或類似的方式在一個或更多個其它實施方式中使用,與其它實施方式中的特征相組合,或替代其它實施方式中的特征。
應該強調,術語“包括/包含”在本文使用時指特征、整件、步驟或組件的存在,但并不排除一個或更多個其它特征、整件、步驟或組件的存在或附加。
附圖說明
圖1是本發明實施例1的圖像標注裝置的一構成示意圖;
圖2是本發明實施例2的圖像標注裝置的一構成示意圖;
圖3是本發明實施例2的圖像標注過程的一示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310251807.8/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





