[發明專利]一種基于循環生成式對抗網絡的跨模態檢索方法有效
| 申請號: | 201811455802.6 | 申請日: | 2018-11-30 |
| 公開(公告)號: | CN109299342B | 公開(公告)日: | 2021-12-17 |
| 發明(設計)人: | 倪立昊;王騫;鄒勤;李明慧 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 齊晨涵;姜學德 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 循環 生成 對抗 網絡 跨模態 檢索 方法 | ||
本發明公開了一種基于循環生成式對抗網絡的跨模態檢索方法,本方法設計了一種新穎的雙通道循環生成式對抗神經網絡,并通過訓練該神經網絡來建立跨模態數據的語義相關性。給定不同模態數據可以在網絡中雙向流動,各模態數據通過一組生成式對抗網絡生成另一模態數據,生成數據又作為下一組生成式對抗網絡的輸入,從而實現數據的雙向循環生成,網絡持續不斷地學習到跨模態數據間的語義關系。為了提高檢索的效率,本方法還利用閾值函數和近似函數將生成器中間層的結果近似為對應的二進制哈希碼,并設計了多種約束條件來保證同模態、同類數據的相似性和跨模態、類間數據的差異性,從而進一步提高了檢索的準確性和穩定性。
技術領域
本發明屬于多媒體信息檢索技術領域,具體涉及一種基于循環生成式對抗網絡的跨模態檢索方法。
技術背景
隨著互聯網時代的到來,人們可以隨時隨地接觸到包括圖片、視頻、文本、音頻等多種模態的海量信息,如何從這些海量信息中獲取到自己需要的內容成為互聯網用戶關心的重點,用戶常常依賴于谷歌、百度、必應等檢索引擎提供的精準檢索服務。然而傳統的互聯網檢索服務大部分還停留在單模態檢索的程度,針對跨模態數據的檢索應用較少,檢索的效率、準確性、穩定性都有待提高,并且大部分都依賴于現有的數據標簽,無法做到無標簽數據的跨模態檢索。因此,研究新型跨模態檢索方法具有很強的現實意義和實用價值,其關鍵在于通過建立多模態異構數據間的語義關系來直接檢索相似的其他模態數據,在無需標注所有的模態數據的情況下實現跨模態數據間的直接檢索,最終進一步提高檢索的性能。
發明內容
本發明針對現有技術的不足,提供了一種基于循環生成式對抗網絡的跨模態檢索方法,能夠有效提交現有跨模態檢索技術的性能。
為了實現上述目的,本發明所設計的基于循環生成式對抗網絡的跨模態檢索方法,其特征在于,包括以下步驟:
設計兩個循環模塊,所述兩個循環模塊共用兩個具有相同網絡結構的生成器,且對生成器中間層的輸出數據進行了哈希編碼,生成器的目的是通過訓練生成盡可能真實的跨模態數據;
其中一個循環模塊通過所述的兩個生成器實現模態m→模態t→模態m的過程,另一個循環模塊也通過所述的兩個生成器實現模態t→模態 m→模態t的過程;
在每個循環模塊中針對不同模態設計各自的判別器,所述判別器試圖對該模態的生成數據和原始數據進行分類,并與生成器進行動態對抗,最終生成器和判別器在給定訓練條件下達到動態平衡。
進一步地,針對數據流多模態多類別的特性,在非監督條件下采用流形約束來保證模態間和類別間的數據相似度和差異性;在監督條件下由于類別標簽給定,因此采用三元組約束來最小化同類不同模態間數據間的特征距離,最大化既不同類也不同模態的數據間的特征距離。
更進一步地,所述判別器的損失函數具體為:
最后生成的同模態的生成數據與原始數據相比較來得到的循環損失函數為:
其中i表示第i次計算的數據,總共有n個訓練樣本數據,判別器在訓練過程中會不斷地朝著減小Ldisc的方向迭代學習,Dimg和Dtxt分別表示兩個判別器,(mori,tori)分別表示模態m和模態t的原始特征向量,(mcyc,tcyc)分別表示模態m和模態t通過循環網絡生成的特征向量。
再進一步地,所述生成器的損失函數具體為:
其中θ1是網絡的超參數,||*||2表示求L2距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811455802.6/2.html,轉載請聲明來源鉆瓜專利網。





