[發(fā)明專利]基于知識(shí)遷移的多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像文本描述方法有效
| 申請(qǐng)?zhí)枺?/td> | 201611236901.6 | 申請(qǐng)日: | 2016-12-28 |
| 公開(公告)號(hào): | CN106650756B | 公開(公告)日: | 2019-12-10 |
| 發(fā)明(設(shè)計(jì))人: | 胡海峰;張俊軒;王騰;楊梁;王偉軒 | 申請(qǐng)(專利權(quán))人: | 廣東順德中山大學(xué)卡內(nèi)基梅隆大學(xué)國際聯(lián)合研究院;中山大學(xué) |
| 主分類號(hào): | G06K9/46 | 分類號(hào): | G06K9/46;G06K9/62 |
| 代理公司: | 44102 廣州粵高專利商標(biāo)代理有限公司 | 代理人: | 林麗明 |
| 地址: | 528300 廣東省佛山市順德區(qū)大良*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 知識(shí) 遷移 多模態(tài) 循環(huán) 神經(jīng)網(wǎng)絡(luò) 圖像 文本 描述 方法 | ||
1.一種基于知識(shí)遷移的多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像文本描述方法,其特征在于,包括以下步驟:
S1:在服務(wù)器中訓(xùn)練圖像語義分類器;
S2:在服務(wù)器中訓(xùn)練語言模型;
S3:在服務(wù)器中預(yù)訓(xùn)練文本描述生成模型并生成描述句子;
所述步驟S1的具體過程如下:
S11:采集多種圖像數(shù)據(jù)集:下載現(xiàn)成的數(shù)據(jù)集,包括ImageNet和MSCOCO,由于MSCOCO是一種圖像與文本描述成對(duì)匹配的數(shù)據(jù)集,取其圖像部分;
S12:使用卷積神經(jīng)網(wǎng)絡(luò),對(duì)采集的數(shù)據(jù)集中的每一張圖片提取相應(yīng)的圖像特征fI;
S13:制作一個(gè)標(biāo)簽集,選取1000個(gè)最常見的單詞即覆蓋了90%圖像與文本描述成對(duì)匹配的訓(xùn)練集中使用到的單詞,以及加上ImageNet圖像分類中沒有出現(xiàn)在成對(duì)匹配訓(xùn)練集中的對(duì)象的詞,將兩者組成需要用到的標(biāo)簽詞庫;
S14:利用上個(gè)步驟制作好的標(biāo)簽詞庫,對(duì)每張圖片采用多示例學(xué)習(xí)的方法為其添加上多個(gè)視覺概念標(biāo)簽:
多示例學(xué)習(xí)中將各種多示例的集合定義為“包”,正包指的是包中至少有一個(gè)正示例,否則定義為負(fù)包,在這里把每張圖片定義成一個(gè)包;
對(duì)于MSCOCO數(shù)據(jù)集中每一張圖片,根據(jù)其數(shù)據(jù)集中五個(gè)參考文本描述去給每個(gè)圖像設(shè)定相對(duì)應(yīng)的標(biāo)簽,如果一個(gè)圖像中對(duì)應(yīng)的五個(gè)參考文本描述中的任意一個(gè)提到了一個(gè)標(biāo)簽,則認(rèn)為對(duì)應(yīng)的圖片是一個(gè)正包,否則認(rèn)為該圖片是負(fù)包;對(duì)于ImageNet數(shù)據(jù)集中的每一張圖片,以其本來的標(biāo)簽作為單獨(dú)的標(biāo)簽。
2.根據(jù)權(quán)利要求1所述的基于知識(shí)遷移的多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像文本描述方法,其特征在于,所述步驟S2的具體過程如下:
S21:語言模型采用三種純文本數(shù)據(jù)集去訓(xùn)練即MSCOCO中的所有文本描述、Flicker1M,F(xiàn)licker30K,Pascal1K中的圖像文本描述、英國國家語料庫和維基百科中的文本數(shù)據(jù);
S22:將文本數(shù)據(jù)集中的單詞轉(zhuǎn)變成向量的形式;
S23:將文本的上一個(gè)單詞作為輸入,輸入到一個(gè)長短期記憶模型中,讓LSTM單元學(xué)習(xí)語言中的遞歸結(jié)構(gòu);
S24:同時(shí)將單詞向量以及LSTM的輸出組合起來,輸出模型需要的語言特征fL。
3.根據(jù)權(quán)利要求2所述的基于知識(shí)遷移的多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像文本描述方法,其特征在于,所述步驟S3的具體過程如下:
S31:用調(diào)整的卷積神經(jīng)網(wǎng)絡(luò)提取MSCOCO中的圖像特征;
S32:將獨(dú)立訓(xùn)練好的語言模型特征fL和S31的圖像特征整合嵌入到一個(gè)含有多模態(tài)單元的循環(huán)神經(jīng)網(wǎng)絡(luò)之中;
S33:把MSCOCO數(shù)據(jù)迭代輸入,預(yù)訓(xùn)練的文本描述生成模型;
S34:將圖像語義分類器中得到的圖像特征fI嵌入到多模態(tài)單元當(dāng)中;
S35:將成對(duì)匹配訓(xùn)練集中的一些對(duì)象的概率預(yù)測(cè)權(quán)重矩陣轉(zhuǎn)移到概念相似的非成對(duì)匹配訓(xùn)練集中的對(duì)象中即當(dāng)語義分類器判定非成對(duì)匹配數(shù)據(jù)集中的一個(gè)對(duì)象與成對(duì)匹配訓(xùn)練集中的某個(gè)對(duì)象相似時(shí),令它們的預(yù)測(cè)權(quán)重矩陣相同;
S36:同時(shí)要令兩種相似對(duì)象預(yù)測(cè)的情況要獨(dú)立,此時(shí)增加一個(gè)判定條件,對(duì)于根據(jù)圖像特征的生成的權(quán)重矩陣要結(jié)合語義分類器來決定,對(duì)于bus和car,若語義分類器預(yù)測(cè)該圖像為bus,則根據(jù)圖像特征預(yù)測(cè)生成car的權(quán)重矩陣,使其為預(yù)測(cè)的概率為0,反之亦然;
S37:將驗(yàn)證集中的圖片輸入到圖像文本描述生成模型當(dāng)中,通過訓(xùn)練好的模型參數(shù)得到單詞向量以及它們對(duì)應(yīng)的概率;
S38:選取概率最高的單詞作為句子的首個(gè)單詞;
S39:將第一個(gè)單詞輸入到語言模型中,經(jīng)過語言模型中的LSTM計(jì)算得出的特征結(jié)合fL,再次生成一系列的單詞向量以及對(duì)應(yīng)的概率;
S310:選取概率最高的作為句子的第二個(gè)單詞;
S311:循環(huán)重復(fù)S39和S310的工作,直至模型輸出一個(gè)句子結(jié)束標(biāo)志。
4.根據(jù)權(quán)利要求3所述的基于知識(shí)遷移的多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像文本描述方法,其特征在于,所述步驟S13中制作的標(biāo)簽集是結(jié)合圖像與文本描述成對(duì)匹配訓(xùn)練集的詞和ImageNet圖像分類中沒有出現(xiàn)在成對(duì)匹配訓(xùn)練集中的對(duì)象的詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東順德中山大學(xué)卡內(nèi)基梅隆大學(xué)國際聯(lián)合研究院;中山大學(xué),未經(jīng)廣東順德中山大學(xué)卡內(nèi)基梅隆大學(xué)國際聯(lián)合研究院;中山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611236901.6/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:基于顏色特征的特征提取方法
- 下一篇:靠墊
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)
- 遷移方法和裝置
- 移動(dòng)邊緣系統(tǒng)中遷移應(yīng)用方法、相關(guān)設(shè)備及系統(tǒng)
- 虛擬機(jī)的遷移方法及裝置
- 數(shù)據(jù)遷移方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 計(jì)算任務(wù)遷移方法及計(jì)算任務(wù)遷移器
- 文件遷移方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于遷移工具的國產(chǎn)化應(yīng)用系統(tǒng)遷移方法
- 數(shù)據(jù)遷移方法及裝置
- 文件遷移方法及裝置
- 一種數(shù)據(jù)遷移方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識(shí)別方法及裝置
- 一種基于多模態(tài)生成式對(duì)抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識(shí)別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法





