[發(fā)明專利]基于判別相關(guān)分析的跨媒體檢索方法有效
| 申請?zhí)枺?/td> | 201210133488.6 | 申請日: | 2012-04-28 |
| 公開(公告)號: | CN102663447A | 公開(公告)日: | 2012-09-12 |
| 發(fā)明(設(shè)計)人: | 譚鐵牛;王亮;王威 | 申請(專利權(quán))人: | 中國科學(xué)院自動化研究所 |
| 主分類號: | G06K9/64 | 分類號: | G06K9/64;G06F17/30 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 判別 相關(guān) 分析 媒體 檢索 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及模式識別和機器學(xué)習(xí)領(lǐng)域,尤其是一種基于判別相關(guān)分析的跨媒體檢索方法。
背景技術(shù)
近年來,大量出現(xiàn)的多媒體數(shù)據(jù)呈現(xiàn)兩個明顯的特點:高維度性和多源性,例如同一個語義概念可以由網(wǎng)絡(luò)上的文字、圖片、視頻等多種內(nèi)容來表示。此外,互聯(lián)網(wǎng)用戶還主要通過文本關(guān)鍵字搜索所需要的信息,這主要是因為搜索引擎無法理解不同模態(tài)媒體之間的相互關(guān)系,從而限制了搜索引擎的發(fā)展。特征降維揭示了高維數(shù)據(jù)在低維空間中的流形結(jié)構(gòu)以及不同模態(tài)數(shù)據(jù)之間的相關(guān)性,在信息檢索、模式分類,信息可視化等領(lǐng)域發(fā)揮了重大的作用。
單模態(tài)數(shù)據(jù)的特征降維方法有很多,主成份分析(Principal?Component?Analysis)把原始數(shù)據(jù)投影到具有最大方差的主方向上;線性判別分析(Linear?Discriminant?Analysis,LDA)是一種有監(jiān)督降維方法,在充分利用類別信息的條件下找到一個投影子空間,使得不同類別的特征具有最優(yōu)的判別性;局部線性嵌入(Locally?Linear?Embedding)是最早的非線性局部保留方法,每個數(shù)據(jù)點與其最近鄰數(shù)據(jù)點的線性關(guān)系在投影空間中得以保留;LE(Laplacian?Eigenmaps)在投影空間中保留了局部兩個數(shù)據(jù)點的距離,LPP(Locality?Preserving?Projection)是其線性近似算法;多層自編碼網(wǎng)絡(luò)(Multilayer?Autoencoder?Network)是主成份分析方法的非線性擴展。有研究工作指出,雖然非線性方法處理模擬數(shù)據(jù)性能很好,但是對于現(xiàn)實數(shù)據(jù)卻不一定比傳統(tǒng)的主成份分析方法好,而且以上提到的這些方法均不能直接應(yīng)用于多模態(tài)跨媒體檢索。
多模態(tài)數(shù)據(jù)的特征降維方法研究并不是很多,典型相關(guān)分析(Canonical?Correlation?Analysis,CCA)是其中最為有名的多變量數(shù)據(jù)分析方法,它把多模態(tài)數(shù)據(jù)分別線性投影到同一子空間,使得多模態(tài)變量具有最大相關(guān)性;與典型線性相關(guān)不同,PLS(Partial?Least?Square)在投影空間中使多模態(tài)變量具有最大協(xié)方差;在多層自編碼網(wǎng)絡(luò)的啟發(fā)下,多模態(tài)深度學(xué)習(xí)網(wǎng)絡(luò)被提出來為不同模態(tài)數(shù)據(jù)學(xué)習(xí)共同的表示。總之,以上方法更多的是以最大化多模態(tài)變量的相關(guān)性為目標(biāo)去尋找投影空間,而忽略了最大化多模態(tài)數(shù)據(jù)中不同類別數(shù)據(jù)的判別性,而判別性在多模態(tài)數(shù)據(jù)檢索與分類任務(wù)中往往非常重要。
發(fā)明內(nèi)容
現(xiàn)有多模態(tài)數(shù)據(jù)分析方法普遍沒有考慮數(shù)據(jù)的判別性,本發(fā)明提供了一種基于判別相關(guān)分析(Discriminant?Correlation?Analysis,DCA)的方法,它融合了典型相關(guān)分析和線性判別分析的思想,同時優(yōu)化多種模態(tài)數(shù)據(jù)的相關(guān)性和不同類別數(shù)據(jù)的判別性。
本發(fā)明所提出的一種基于判別相關(guān)分析的跨媒體檢索方法,其特征在于,該方法包括以下步驟:
步驟1,建立包括一一對應(yīng)的圖像和文本對的跨媒體訓(xùn)練數(shù)據(jù)庫并提取該數(shù)據(jù)庫中不同模態(tài)樣本的特征向量,得到相應(yīng)的特征數(shù)據(jù)點集;
步驟2,分別對圖像與文本兩個模態(tài)的特征數(shù)據(jù)點集進行均值預(yù)處理,使得每個模態(tài)的特征數(shù)據(jù)點集的均值為0;
步驟3,將經(jīng)過均值預(yù)處理的特征數(shù)據(jù)點集進行線性投影變換,并根據(jù)得到的投影空間設(shè)定一關(guān)于線性投影變量的目標(biāo)函數(shù);
步驟4,使用特征值求解法求解所述目標(biāo)函數(shù),得到線性投影向量a和b;
步驟5,建立包括一一對應(yīng)的圖像和文本對的跨媒體測試數(shù)據(jù)庫;
步驟6,輸入待檢索對象,并分別提取待檢索對象的特征向量以及跨媒體測試數(shù)據(jù)庫中與待檢索對象屬于不同模態(tài)的對象集的特征數(shù)據(jù)點集;
步驟7,對步驟6得到的特征向量和特征數(shù)據(jù)點集分別進行所述均值預(yù)處理;
步驟8,使用所述步驟4得到的線性投影向量a和b對經(jīng)過均值預(yù)處理的特征向量和特征數(shù)據(jù)點集分別進行線性投影變換;
步驟9,計算待檢索對象的投影變量與對象集的投影變量之間的歐式距離,并對所有的歐式距離進行升序排序,前n個歐式距離對應(yīng)的對象數(shù)據(jù)即是在所述跨媒體測試數(shù)據(jù)庫中檢索得到的與待檢索圖像相關(guān)的另一模態(tài)的對象。
本發(fā)明方法能夠?qū)μ卣鲾?shù)據(jù)進行有效地降維,從而廣泛地應(yīng)用在其他很多多模態(tài)工作中,比如多模態(tài)生物特征識別。實驗證明,本發(fā)明方法在跨媒體檢索中比典型相關(guān)分析,以及典型相關(guān)分析與線性判別分析的簡單組合性能都要好。
附圖說明
圖1是本發(fā)明方法的實現(xiàn)流程圖;
圖2是本發(fā)明方法在一個模擬數(shù)據(jù)集上與其他相關(guān)方法的對比結(jié)果。
具體實施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院自動化研究所,未經(jīng)中國科學(xué)院自動化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210133488.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





