[發(fā)明專利]學習跨平臺多模態(tài)媒體數(shù)據(jù)共同特征表示的方法及裝置有效
申請?zhí)枺?/td> | 201410366722.9 | 申請日: | 2014-07-29 |
公開(公告)號: | CN104133807B | 公開(公告)日: | 2017-06-23 |
發(fā)明(設計)人: | 徐常勝;楊小汕;張?zhí)熘?/a> | 申請(專利權)人: | 中國科學院自動化研究所 |
主分類號: | G06F17/11 | 分類號: | G06F17/11;G06F17/30;G06K9/46 |
代理公司: | 中科專利商標代理有限責任公司11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 學習 平臺 多模態(tài) 媒體 數(shù)據(jù) 共同 特征 表示 方法 裝置 | ||
技術領域
本發(fā)明屬于社會媒體(social media)分析和跨媒體特征表示領域,具體涉及一種利用去噪自編碼器學習跨平臺多模態(tài)媒體數(shù)據(jù)共同特征表示的方法。
背景技術
隨著Web2.0的快速普及,越來越多的社會媒體網(wǎng)站(例如Flickr、YouTube、Facebook和Google)可供用戶發(fā)布和共享信息。這使得發(fā)生在人們周圍的事件以更快的速度被記錄和傳播并隨之產生了大量不同模態(tài)的媒體數(shù)據(jù),例如圖像、文本和視頻。據(jù)統(tǒng)計,在1分鐘之內,有3125張圖片被上傳到Flickr,700K條消息在Facebook上被發(fā)送,2MM視頻在YouTube上被瀏覽。用戶上傳的信息不僅規(guī)模巨大,而且以不同的模態(tài)存在于不同平臺上。這些社會多媒體數(shù)據(jù)中存在著寶貴的信息,并且已經(jīng)被用于大量的應用中。例如,實時社會媒體數(shù)據(jù)流(Twitter)被用于語義視頻推薦、社會事件預測和圖像標注。Flickr上的圖片信息被成功地用于預測2008年美國總統(tǒng)選舉、產品銷售分部監(jiān)控以及產品銷售量預測。社會媒體圖像中的人臉表情被用于監(jiān)測總統(tǒng)選舉中輿情信息。
在社會媒體的各種應用中,關鍵的問題在于如何從大量媒體數(shù)據(jù)中抽取有效的特征。目前大部分的方法都是基于媒體的上下文信息,例如時間、位置和文本描述。這些描述性信息容易被抽取,但有大量的媒體數(shù)據(jù)并沒有包含這些上下文信息,因此無法得到有效的特征表示。基于內容的社會媒體信息抽取可以解決這些問題。但基于內容的特征表示存在三個難點:(1)社會媒體數(shù)據(jù)具有多模態(tài)屬性。例如社會媒體網(wǎng)站中的媒體樣本通常同時被圖像、文本表示。(2)社會媒體數(shù)據(jù)的跨平臺特性。例如關于特定社會事件的圖像可能同時存在于Flickr和Facebook中。(3)傳統(tǒng)手工設定的特征仍然不能有效地表示多媒體數(shù)據(jù)中包含的語義信息。
發(fā)明內容
本發(fā)明的目的是針對社會媒體數(shù)據(jù)的跨平臺多模態(tài)特性,通過去噪自編碼器(denoising auto-encoder)來提高底層特征的表示能力,通過最大化不同模態(tài)間的相關性來挖掘不同模態(tài)數(shù)據(jù)的共同語義特征,通過跨平臺約束來學習不同平臺上多媒體數(shù)據(jù)的共同特征表示。
為實現(xiàn)上述目的,本發(fā)明提供一種利用去噪自編碼器學習跨平臺多模態(tài)媒體數(shù)據(jù)共同特征表示的方法,該方法包括以下步驟:
步驟S1,建立優(yōu)化目標方程;目標方程中,采用單層的去噪自編碼器來重建不同平臺和不同模態(tài)的媒體數(shù)據(jù)特征,在重建時,考慮模態(tài)相關性約束和跨平臺約束;其中,所述不同平臺和不同模態(tài)的媒體數(shù)據(jù)特征包括圖像特征和文本特征;
步驟S2,求得所述優(yōu)化目標方程的解析解,在求解析解過程中,通過尋找偏導數(shù)為零的點得到全局最優(yōu)解;
步驟S3,利用邊緣化方法對所得到的解析解進行求解,其中求解過程中通過弱大數(shù)定律來邊緣化特征向量的隨機噪聲進行求解。
本發(fā)明還提供了一種利用去噪自編碼器學習跨平臺多模態(tài)媒體數(shù)據(jù)共同特征表示的裝置,其特征在于,該裝置包括:
建立模塊,其用于建立優(yōu)化目標方程;目標方程中,采用單層的去噪自編碼器來重建不同平臺和不同模態(tài)的媒體數(shù)據(jù)特征,在重建時,考慮模態(tài)相關性約束和跨平臺約束;其中,所述不同平臺和不同模態(tài)的媒體數(shù)據(jù)特征包括圖像特征和文本特征;
解析解模塊,其用于求得所述優(yōu)化目標方程的解析解,在求解析解過程中,通過尋找偏導數(shù)為零的點得到全局最優(yōu)解;
求解模塊,其利用邊緣化方法對所得到的解析解進行求解,其中求解過程中通過弱大數(shù)定律來邊緣化特征向量的隨機噪聲進行求解。
本發(fā)明的有益效果:采用去噪自編碼器可以提高底層特征的表達能力,模態(tài)相關性約束有利于尋找不同模態(tài)數(shù)據(jù)之間最相關的特征,平臺適應約束可以減小不同平臺上的多媒體數(shù)據(jù)特征分布的差異。
附圖說明
圖1是本發(fā)明所述的跨平臺多模態(tài)自編碼器的示意圖。
具體實施方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并參照附圖,對本發(fā)明作進一步的詳細說明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經(jīng)中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410366722.9/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 用于智能機器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學習的多模態(tài)醫(yī)學影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學習的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應用該系統(tǒng)的方法
- 一種基于門機制多模態(tài)融合的情感分析方法
- 面向寬域飛行的多模態(tài)精確劃分方法