[發(fā)明專利]用于無監(jiān)督跨模態(tài)檢索的充分場景表達生成方法有效
| 申請?zhí)枺?/td> | 202110306464.5 | 申請日: | 2021-03-23 |
| 公開(公告)號: | CN113010697B | 公開(公告)日: | 2022-09-20 |
| 發(fā)明(設計)人: | 沃焱;羅杰庭 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/383 | 分類號: | G06F16/383;G06F16/31;G06F16/583;G06F16/55;G06F16/51;G06N3/04;G06N3/08 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 監(jiān)督 跨模態(tài) 檢索 充分 場景 表達 生成 方法 | ||
本發(fā)明公開了一種用于無監(jiān)督跨模態(tài)檢索的充分場景表達生成方法,包括:1)對不同模態(tài)的數(shù)據(jù)分別提取局部特征,并構造相對應的局部特征集;2)基于各模態(tài)數(shù)據(jù)的局部特征集,為不同模態(tài)的數(shù)據(jù)生成對應的統(tǒng)計表達;3)基于統(tǒng)計表達定義各模態(tài)對應的統(tǒng)計流形,并據(jù)此構造相應的公共統(tǒng)計流形;4)搭建多個淺層神經網絡來學習不同模態(tài)間的投影,為多模態(tài)數(shù)據(jù)補齊自身所缺失的其它模態(tài)下的統(tǒng)計表達;5)將多模態(tài)數(shù)據(jù)自身的統(tǒng)計表達與所學習到的其它模態(tài)下的統(tǒng)計表達進行級聯(lián),從而獲得一個包含充分的場景信息的表達,并相應地將各模態(tài)的數(shù)據(jù)統(tǒng)一嵌入到公共統(tǒng)計流形中以進行跨模態(tài)檢索。本發(fā)明為不同模態(tài)的數(shù)據(jù)生成充分場景表達來進行更加精確的跨模態(tài)檢索。
技術領域
本發(fā)明涉及多模態(tài)數(shù)據(jù)檢索的技術領域,尤其是指一種用于無監(jiān)督跨模態(tài)檢索的充分場景表達生成方法。
背景技術
隨著信息技術的不斷發(fā)展,網絡上不同模態(tài)的數(shù)據(jù)總量也越來越大,這使得傳統(tǒng)基于文本關鍵字的單模態(tài)檢索引擎難以滿足用戶高效地檢索其它模態(tài)數(shù)據(jù)的需求。例如,當用戶拿到一張關于某景點的照片時,傳統(tǒng)的單模態(tài)檢索引擎無法根據(jù)該照片匹配其對應的文字介紹或者語音介紹返回給用戶;而跨模態(tài)檢索引擎則能根據(jù)用戶所提供的任意模態(tài)的數(shù)據(jù)匹配與其內容最接近的其它模態(tài)的數(shù)據(jù)并返回給用戶。因此,為了滿足用戶日益增長的檢索需求,有效的跨模態(tài)檢索引擎成為了一種迫切的需要。
在跨模態(tài)檢索領域,目前主流的方法可大致分為有監(jiān)督方法和無監(jiān)督方法。有監(jiān)督方法主要是利用一些監(jiān)督信息,如:類別標簽、相似性標簽等,來幫助學習不同模態(tài)之間的關聯(lián)從而為多模態(tài)數(shù)據(jù)生成有效的公共表達以進行跨模態(tài)檢索。雖然有監(jiān)督方法在實驗數(shù)據(jù)上都有較好的表現(xiàn),但是對多模態(tài)數(shù)據(jù)進行打標簽需要耗費大量的人力和時間,且這種打標簽的成本會隨著數(shù)據(jù)量的增長而不斷增加。因此,在多模態(tài)數(shù)據(jù)量呈爆炸性增長的今天,有監(jiān)督方法難以在實際中得以應用。與有監(jiān)督方法不同,無監(jiān)督方法不需要借助任何標簽信息,僅利用多模態(tài)數(shù)據(jù)間一一對應的關系來挖掘不同模態(tài)之間的關聯(lián),所以無監(jiān)督跨模態(tài)檢索方法的現(xiàn)實價值與實用性更高。
無監(jiān)督方法又可以大致分為以下幾種方法:基于相似性保持的方法、基于矩陣分解的方法、基于圖模型的方法。基于相似性保持的方法主要通過在公共空間中同時保持模態(tài)內相似性與模態(tài)間相似性來為多模態(tài)數(shù)據(jù)生成公共表達。而基于矩陣分解的方法則認為一個實例所對應的不同模態(tài)的數(shù)據(jù)應該在公共空間中有著相同的表達,然后這類方法主要是通過矩陣分解的方式來學習這一個表達。對于基于圖模型的方法,它們一般會先將數(shù)據(jù)間的關系通過圖模型來進行建模,然后使用圖模型中所構造的關系來對跨模態(tài)學習的過程進行約束,使得圖模型中的數(shù)據(jù)關系能夠保持到生成的公共表達中。然而,這些方法大多忽略了多模態(tài)數(shù)據(jù)的本質,對多模態(tài)數(shù)據(jù)的公共表達缺乏一個清晰的建模,所生成的公共表達存在信息表達不充分的問題;而且它們總是過于關注如何將大量的多模態(tài)數(shù)據(jù)關系保持到公共空間中,導致它們所生成的公共空間出現(xiàn)數(shù)據(jù)分布混亂的問題。而這些問題也導致了它們的跨模態(tài)檢索精度不高。
發(fā)明內容
本發(fā)明的目的在于克服現(xiàn)有技術的缺點與不足,提出了一種用于無監(jiān)督跨模態(tài)檢索的充分場景表達生成方法,該方法將多模態(tài)數(shù)據(jù)的公共表達清晰地建模為包含充分場景信息的表達(簡稱充分場景表達),并通過表達補齊的方式,在不需要考慮數(shù)據(jù)間過多的關系的情況下,為不同模態(tài)的數(shù)據(jù)生成充分場景表達來進行更加精確的跨模態(tài)檢索,能有效解決現(xiàn)有技術方法中存在的公共表達信息不充分以及公共空間分布混亂的問題。
為實現(xiàn)上述目的,本發(fā)明所提供的技術方案為:用于無監(jiān)督跨模態(tài)檢索的充分場景表達生成方法,包括以下步驟:
1)對不同模態(tài)的數(shù)據(jù)分別提取局部特征,并構造相對應的局部特征集;
2)基于各模態(tài)數(shù)據(jù)的局部特征集,分別為不同模態(tài)的數(shù)據(jù)生成對應的統(tǒng)計表達;
3)基于步驟2)中生成的各模態(tài)數(shù)據(jù)的統(tǒng)計表達定義各模態(tài)對應的統(tǒng)計流形,并據(jù)此構造相應的公共統(tǒng)計流形;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110306464.5/2.html,轉載請聲明來源鉆瓜專利網。
- 一種基于特定模態(tài)語義空間建模的跨模態(tài)相似性學習方法
- 一種跨模態(tài)信息檢索方法、裝置和存儲介質
- 基于解糾纏表達學習的跨模態(tài)生物特征匹配方法及系統(tǒng)
- 基于跨模態(tài)行人重識別方法及裝置
- 跨模態(tài)人臉識別的方法、裝置、設備和存儲介質
- 跨模態(tài)檢索模型的訓練方法、裝置、設備和存儲介質
- 一種基于多模態(tài)注意力機制的跨模態(tài)哈希方法及系統(tǒng)
- 跨模態(tài)檢索方法、裝置、電子設備及存儲介質
- 基于有監(jiān)督對比的跨模態(tài)檢索方法、系統(tǒng)及設備
- 一種生成跨模態(tài)的表示向量的方法以及跨模態(tài)推薦方法





