[發明專利]一種異構數據共享表示學習方法及系統在審
| 申請號: | 201611198836.2 | 申請日: | 2016-12-22 |
| 公開(公告)號: | CN106599266A | 公開(公告)日: | 2017-04-26 |
| 發明(設計)人: | 劉文印;楊振國;李青 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 羅滿 |
| 地址: | 510062 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 共享 表示 學習方法 系統 | ||
技術領域
本發明涉及信息處理技術領域,特別是涉及一種異構數據共享表示學習方法及系統。
背景技術
社交媒體網站使得人們能夠方便地產生或分享信息,同時產生了大量的社交媒體數據,其中蘊含了各種各樣的現實世界中的概念和人們的活動。社會事件發生時,媒體的報道會引起人們的關注,人們不僅會在社交媒體平臺上討論、發表自己的觀點同時也會提供一些自己的所見所聞,這些社交媒體信息不僅是人們對事件的反響,也能為事件提供更全面的信息和額外的線索。因此,事件檢測任務近幾年吸引了大量的研究者,尤其是社交媒體中的事件檢測。社交媒體發布信息的便捷性、實時性強和傳播速度快等特點,使得社交媒體數據在事件檢測中尤為重要。
在實際應用中,就單個事件而言,社交媒體平臺中關于該事件的內容可能是被多個用戶發布或者分享,這些用戶可能地理上分布不同、分享的時間不同、模態形式不同、內容不同、描述角度不同等等,因此造成信息分布散亂。因此多模態數據存在異構性、數據量大和計算代價大的特點,這給多模態數據的處理及蘊含的事件挖掘帶來了挑戰。
目前,單一模態數據挖掘方法由于多模態數據的異構性和數據量大的特點,不能處理場景中的數據;多模態融合技術雖然可針對多模態數據進行有效處理,但較高的計算復雜度使得進行多模態數據處理時占用大量內存,不適用于社交媒體平臺。
由此可見,現有技術方案對多模態數據進行處理時無法同時解決存在的異構性、數據量大和計算代價大的問題。
發明內容
有鑒于此,本發明提供一種異構數據共享表示學習方法及系統,能夠融合社交媒體中的多模態數據并實現有效的判別表示,克服了現有技術方案在對社交媒體數據進行處理時無法同時解決存在的異構性、數據量大和計算代價大的問題。
為解決上述技術問題,本發明提供如下技術方案:
一種異構數據共享表示學習方法,包括:
選取數據中的預設數據樣本為原子,構建數據樣本詞典;
提取所述數據樣本詞典中的原子在各個模態的特征表示,構建各個模態的特征詞典,每一模態的特征詞典以各預設數據樣本在對應模態提取的特征表示為原子;
基于數據樣本在各個模態提取的特征表示、各個模態的所述特征詞典構建數據重構模型,學習獲得數據樣本的數據共享表示,以根據所述數據共享表示對該數據樣本進行分類。
可選地,當在數據中無標定數據時,任取一個特征模態對數據進行聚類,選取代表性數據樣本作為所述預設數據樣本。
可選地,所述基于數據樣本在各個模態提取的特征表示、各個模態的所述特征詞典構建數據重構模型之前,還包括:
計算數據樣本在各個模態提取的特征表示分別與對應模態的特征詞典中各原子的相似度值,得到的結果作為數據樣本在各個模態的特征表示,數據樣本第i個模態的特征表示為Xm,m∈[1,M];
所述基于數據樣本在各個模態提取的特征表示、各個模態的所述特征詞典構建數據重構模型,學習獲得數據樣本的數據共享表示包括:
建立的所述數據重構模型表示如下:
其中,第一個正則項表示對重構誤差的約束,第二個正則項表示低秩約束,第三個正則項表示拉普拉斯約束,Z表示數據共享表示,Lm表示第m個模態上構造的拉普拉斯矩陣;并有如下關系:
其中,N表示數據樣本的數目,Wm表示第m個模態上利用相似度值構造的鄰接圖矩陣,Degm表示第m個模態上的度矩陣。
可選地,當在數據中有標定數據時,以標定數據樣本作為所述預設數據樣本。
可選地,所述基于數據樣本在各個模態提取的特征表示、各個模態的所述特征詞典構建數據重構模型之前,還包括:
計算數據樣本在各個模態提取的特征表示分別與對應模態的特征詞典中各原子的相似度值,得到的結果作為數據樣本在各個模態的特征表示,數據樣本第i個模態的特征表示為Xm(t),m∈[1,M];
根據數據樣本詞典的標簽,對各個模態的特征詞典劃分為K個子集,得到各個模態的特征詞典表示為:其中ec表示第c個事件標簽;
所述基于數據樣本在各個模態提取的特征表示、各個模態的所述特征詞典構建數據重構模型,計算獲得數據樣本的數據共享表示包括:
建立的所述數據重構模型表示如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611198836.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





