[發(fā)明專利]基于深層主題模型的文本圖像多模態(tài)檢索方法有效
| 申請?zhí)枺?/td> | 201710739719.0 | 申請日: | 2017-08-25 |
| 公開(公告)號: | CN107609055B | 公開(公告)日: | 2019-10-11 |
| 發(fā)明(設(shè)計)人: | 陳渤;周翼;王超杰;叢玉來 | 申請(專利權(quán))人: | 西安電子科技大學(xué) |
| 主分類號: | G06F16/53 | 分類號: | G06F16/53;G06F16/2458;G06F16/35;G06K9/62 |
| 代理公司: | 陜西電子工業(yè)專利中心 61205 | 代理人: | 田文英;王品華 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深層 主題 模型 文本 圖像 多模態(tài) 檢索 方法 | ||
本發(fā)明公開了一種基于深層主題模型的文本圖像多模態(tài)檢索方法,可用于文本和圖像多模態(tài)檢索。其實現(xiàn)步驟為:(1)對訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)進(jìn)行預(yù)處理;(2)初始化深層主題模型的超參數(shù)和共享參數(shù);(3)訓(xùn)練深層主題模型;(4)用聯(lián)合特征訓(xùn)練分類器;(5)用測試數(shù)據(jù)進(jìn)行測試。本發(fā)明利用深層主題模型挖掘不同模態(tài)隱層之間由深到淺的聯(lián)系,同時得到一個包含多模態(tài)信息的聯(lián)合特征用于檢索。
技術(shù)領(lǐng)域
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,更進(jìn)一步涉及人工智能技術(shù)領(lǐng)域的一種基于深層主題模型的文本圖像多模態(tài)檢索方法。本發(fā)明可用于挖掘圖像-文本兩種不同模態(tài)的深層聯(lián)系,提取聯(lián)合特征,并利用所提取的聯(lián)合特征對文本-圖像進(jìn)行檢索。
背景技術(shù)
多模態(tài)檢索技術(shù)是利用聯(lián)合學(xué)習(xí)不同模態(tài)特征,并挖掘不同模態(tài)特征之間的聯(lián)系,得到包含多模態(tài)信息的聯(lián)合特征,做到不同模態(tài)數(shù)據(jù)之間相互生成。深層主題模型PGBN(泊松伽馬置信網(wǎng)絡(luò))是一種基于貝葉斯框架的深層主題模型。PGBN模型擁有多層網(wǎng)絡(luò)結(jié)構(gòu),能夠提取出數(shù)據(jù)的多層特征,在文本處理上優(yōu)于傳統(tǒng)主題模型。PGBN模型不僅可以應(yīng)用于文本處理,還可以應(yīng)用于圖像處理。多模態(tài)學(xué)習(xí)技術(shù)是指,聯(lián)合學(xué)習(xí)不同模態(tài)特征,挖掘不同模態(tài)特征之間的聯(lián)系,得到包含多模態(tài)信息的聯(lián)合特征,做到不同模態(tài)數(shù)據(jù)之間相互生成。基于泊松伽馬置信網(wǎng)絡(luò)的文本-圖像多模態(tài)學(xué)習(xí)方法的主要思想為:利用泊松伽馬置信網(wǎng)絡(luò)發(fā)掘不同模態(tài)隱層之間由深到淺的聯(lián)系,同時得到一個包含多模態(tài)信息的聯(lián)合特征表示用于檢索。
K Sohn,W Shang,H Lee等人在其發(fā)表的論文“Improved multimodal deeplearning with variation of information”(International Conference on NeuralInformation Processing Systems,2014:2141-2149)中提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的多模態(tài)檢索方法。該方法首先構(gòu)建了多個基于不同模態(tài)特征的受限制玻爾茲曼機深度神經(jīng)網(wǎng)絡(luò),受限制玻爾茲曼機網(wǎng)絡(luò)層內(nèi)無連接,在初始化網(wǎng)絡(luò)參數(shù)后訓(xùn)練下一層網(wǎng)絡(luò),這就形成了一個兩層結(jié)構(gòu)的受限制玻爾茲曼機,將一個受限制玻爾茲曼機的輸出單元作為另一個受限制玻爾茲曼機的輸入單元,就形成了多層深度網(wǎng)絡(luò)。該方法引入了基于對比散度和多預(yù)測訓(xùn)練的學(xué)習(xí)方法,向深層網(wǎng)絡(luò)反復(fù)編碼結(jié)構(gòu)調(diào)整整個網(wǎng)絡(luò),然后共享這些特定模態(tài)網(wǎng)絡(luò)的最高層,通過聯(lián)合學(xué)習(xí)的方法訓(xùn)練整個神經(jīng)網(wǎng)絡(luò)并把共享的隱層(最高層)作為聯(lián)合特征表示。該方法雖然能夠挖掘的不同模態(tài)特征之間的聯(lián)系,但是,該方法仍然存在的不足之處是:由于深度神經(jīng)網(wǎng)絡(luò)的“黑箱”特性,多層受限制玻爾茲曼機的隱層單元局限于二值,表達(dá)能力有限,從而基于深度神經(jīng)網(wǎng)絡(luò)的多模態(tài)技術(shù)不能確切描述不同模態(tài)特征之間的深層聯(lián)系,同時,受限制玻爾茲曼機隱層與觀測數(shù)據(jù)之間存在非線性映射,很難將隱層與觀測之間的關(guān)系可視化。
上海交通大學(xué)在其申請的專利文獻(xiàn)“基于主題模型的文章特征抽取方法”(專利申請?zhí)枺?01511016955.7,公開號:CN 105631018A)中提出了一種基于主題模型的文章特征抽取檢索方法。該方法基于原始語料庫構(gòu)建文章的引用關(guān)系網(wǎng)絡(luò),構(gòu)建主題模型的生成模型和參數(shù)聯(lián)合表達(dá)式,根據(jù)所述生成模型構(gòu)建主題模型的推斷過程,對新語料庫采樣文章,根據(jù)采樣文章的采樣結(jié)果提取文章參數(shù)。該方法雖然能夠直接對多模態(tài)的輸入建立概率模型,把聯(lián)合特征的表示問題轉(zhuǎn)化成貝葉斯模型的隱層分布推斷問題,但是,該方法仍然存在的不足之處是:受限于傳統(tǒng)主題模型都是淺層模型,僅限于構(gòu)建不同模態(tài)淺層的聯(lián)系,不能挖掘模態(tài)之間更深層的聯(lián)系,從而影響檢索性能。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決上述現(xiàn)有技術(shù)存在的不足,提出一種基于深層主題模型的文本圖像多模態(tài)檢索方法,利用深層主題模型:泊松伽馬置信網(wǎng)絡(luò),發(fā)掘不同模態(tài)隱層之間由深到淺的聯(lián)系,同時得到一個包含多模態(tài)信息的聯(lián)合特征用于檢索,并提高檢索性能。
本發(fā)明的具體步驟包括如下:
(1)對訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)進(jìn)行預(yù)處理:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學(xué),未經(jīng)西安電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710739719.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





