[發(fā)明專利]實例匹配方法、裝置、設備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202111176314.3 | 申請日: | 2021-10-09 |
| 公開(公告)號: | CN114022690A | 公開(公告)日: | 2022-02-08 |
| 發(fā)明(設計)人: | 劉藝;秦偉;李蒙蒙;鄭奇斌;刁興春 | 申請(專利權(quán))人: | 北京大數(shù)據(jù)先進技術(shù)研究院 |
| 主分類號: | G06V10/75 | 分類號: | G06V10/75;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100195 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 實例 匹配 方法 裝置 設備 存儲 介質(zhì) | ||
本申請實施例涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種實例匹配方法、裝置、設備及存儲介質(zhì),旨在提高實例匹配任務的準確性。所述方法包括:將待匹配的文本和圖像輸入循環(huán)生成網(wǎng)絡中;通過文本嵌入網(wǎng)絡對文本進行特征提取,得到文本特征,并將文本特征輸入文本圖像生成網(wǎng)絡中;通過文本圖像生成網(wǎng)絡生成語義圖像;對語義圖像、真實圖像和與文本不匹配的錯誤圖像進行判別,得到圖像為真實圖像的概率以及圖像的條件概率;將語義圖像、原圖像和文本輸入文本重建網(wǎng)絡中,得到文本的條件概率,根據(jù)圖像的條件概率以及文本的條件概率,輸出匹配結(jié)果。
技術(shù)領(lǐng)域
本申請實施例涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體而言,涉及一種實例匹配方法、裝置、設備及存儲介質(zhì)。
背景技術(shù)
實例匹配就是將不同模態(tài)的數(shù)據(jù)進行匹配,例如圖像和描述該圖像的文本這兩種不同模態(tài)的數(shù)據(jù)進行匹配,實例匹配任務在很多方面得到了應用,例如在電子書,網(wǎng)頁上等。由于不同模態(tài)的數(shù)據(jù)描述信息的方式存在本質(zhì)區(qū)別,導致不同模態(tài)樣本蘊含的信息并非完全對稱,這種由于模態(tài)差異造成的信息不對稱會影響數(shù)據(jù)在跨模態(tài)實例匹配等任務中的可用性。現(xiàn)有技術(shù)中,一般是將文字和圖像進行特征提取,將得到的文字的特征和圖像的特征映射到一個共同空間中進行匹配。
現(xiàn)有技術(shù)更多關(guān)注的是如何挖掘模態(tài)數(shù)據(jù)間的關(guān)聯(lián)性,以及如何克服模態(tài)數(shù)據(jù)間的語義鴻溝,忽視了模態(tài)數(shù)據(jù)間信息不對稱的問題,在實例匹配任務中容易出現(xiàn)錯誤的結(jié)果。
發(fā)明內(nèi)容
本申請實施例提供一種實例匹配方法、裝置、設備及存儲介質(zhì),旨在提高實例匹配任務的準確性。
本申請實施例第一方面提供一種實例匹配方法,所述方法包括:
將待匹配的多個文本和多個圖像輸入循環(huán)生成網(wǎng)絡中;
通過所述循環(huán)生成網(wǎng)絡中的文本嵌入網(wǎng)絡對所述多個文本中的每個文本進行特征提取,得到所述文本對應的文本特征,并將所述文本特征輸入所述循環(huán)生成網(wǎng)絡中的文本圖像生成網(wǎng)絡中;
通過所述文本圖像生成網(wǎng)絡根據(jù)所述文本特征生成語義圖像;
對所述語義圖像、所述多個圖像中的真實圖像和所述多個圖像中與所述文本不匹配的錯誤圖像進行判別,得到所述多個圖像中的每個圖像為真實圖像的概率以及所述多個圖像中的每個圖像的條件概率;
將所述語義圖像、所述多個圖像和所述多個文本輸入所述循環(huán)生成網(wǎng)絡中的文本重建網(wǎng)絡中,得到所述多個文本中的每個文本的條件概率;
根據(jù)所述多個圖像中的每個圖像的條件概率以及所述多個文本中的每個文本的條件概率,輸出匹配結(jié)果。
可選地,通過所述文本圖像生成網(wǎng)絡根據(jù)所述文本特征生成語義圖像,包括:
將所述文本特征輸入所述圖像生成網(wǎng)絡中的生成器中;
通過所述生成器,根據(jù)所述文本特征生成所述語義圖像。
可選地,對所述語義圖像、所述多個圖像中的真實圖像和所述多個圖像中與所述文本不匹配的錯誤圖像進行判別,得到所述多個圖像中的每個圖像為真實圖像的概率以及所述多個圖像中的每個圖像的條件概率,包括:
將所述語義圖像、所述多個圖像中的真實圖像和所述多個圖像中與所述文本不匹配的錯誤圖像輸入所述文本圖像生成網(wǎng)絡中的判別器中;
通過所述判別器得到所述多個圖像中的每個圖像為真實圖像的概率以及多個圖像中的每個圖像的條件概率。
可選地,將所述語義圖像和所述多個文本輸入所述循環(huán)生成網(wǎng)絡中的文本重建網(wǎng)絡中,得到所述多個文本中的每個文本的條件概率,所述方法還包括:
根據(jù)所述語義圖像和所述文本生成所述語義圖像對應的文本描述;
計算所述語義圖像和所述文本描述匹配的概率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大數(shù)據(jù)先進技術(shù)研究院,未經(jīng)北京大數(shù)據(jù)先進技術(shù)研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111176314.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





