[發(fā)明專利]一種基于融合門循環(huán)網(wǎng)絡(luò)模型的圖像轉(zhuǎn)語言方法在審
| 申請?zhí)枺?/td> | 202110123810.6 | 申請日: | 2021-01-29 |
| 公開(公告)號: | CN112884019A | 公開(公告)日: | 2021-06-01 |
| 發(fā)明(設(shè)計)人: | 周自維;王朝陽;徐亮 | 申請(專利權(quán))人: | 遼寧科技大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F40/216;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 沈陽天贏專利代理有限公司 21251 | 代理人: | 趙嬛嬛 |
| 地址: | 114051 遼寧*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 融合 循環(huán) 網(wǎng)絡(luò) 模型 圖像 語言 方法 | ||
本發(fā)明公開了一種基于融合門循環(huán)網(wǎng)絡(luò)模型的圖像轉(zhuǎn)語言方法,包括:將圖像數(shù)據(jù)集中的圖像隨機納入訓(xùn)練集,將訓(xùn)練集中的圖像數(shù)據(jù)進行預(yù)處理獲得適應(yīng)卷積網(wǎng)絡(luò)尺寸的圖像和包含所有詞向量的集合,并將預(yù)處理后的圖像進行卷積得到圖像輸出向量;將圖像輸出向量與集合中的起始符合并作為融合門循環(huán)網(wǎng)絡(luò)模型的輸入,進入融合門循環(huán)網(wǎng)絡(luò)模型后經(jīng)過t0時間步產(chǎn)生第一隱藏層輸出;將第一隱藏層輸出與集合中的第一個詞向量合并作為t1時間步的輸入,進入融合門循環(huán)網(wǎng)絡(luò)模型經(jīng)過t1時間步獲得第二隱藏層輸出,如此循環(huán)迭代直至集合中所有詞向量全部參與循環(huán)迭代過程,融合門循環(huán)網(wǎng)絡(luò)模型訓(xùn)練完成;將待處理圖像輸入到訓(xùn)練完成的融合門循環(huán)網(wǎng)絡(luò)模型中生成語言信息。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像識別技術(shù)領(lǐng)域,具體涉及一種基于融合門循環(huán)網(wǎng)絡(luò)模型的圖像轉(zhuǎn)語言方法。
背景技術(shù)
圖像理解是計算機視覺領(lǐng)域研究中的核心和熱點問題,該問題的核心是如何將一幅圖像轉(zhuǎn)化成一句話,這句話就描述了這幅圖像的內(nèi)容。使用計算機程序達到類似的效果面臨諸多問題,因為圖像理解需要考慮多方面的因素,比如如何利用圖像的特征信息、如何將理解的知識轉(zhuǎn)換成一段文字描述以及如何將這些過程轉(zhuǎn)換成邏輯代碼,對于傳統(tǒng)的計算機算法而言,實現(xiàn)這項工作的難度巨大。
發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)存在的上述問題,本發(fā)明提供一種基于融合門循環(huán)網(wǎng)絡(luò)模型的圖像轉(zhuǎn)語言方法,所采用的網(wǎng)絡(luò)模型以編碼器-解碼器作為整體結(jié)構(gòu)框架,并將注意力機制嵌入到語言模型之中,該網(wǎng)絡(luò)模型是圖像的空間信息與時間信息的融合,相對于以前的研究,本發(fā)明在實現(xiàn)圖像理解上的效果更好,速度更快。本發(fā)明的技術(shù)方案為:
一種基于融合門循環(huán)網(wǎng)絡(luò)模型的圖像轉(zhuǎn)語言方法,包括:
(1)將圖像數(shù)據(jù)集中的圖像隨機納入訓(xùn)練集,將訓(xùn)練集中的圖像數(shù)據(jù)進行預(yù)處理獲得適應(yīng)卷積網(wǎng)絡(luò)尺寸的圖像和包含所有詞向量的集合,并將預(yù)處理后的圖像進行卷積得到圖像輸出向量;
(2)將所述圖像輸出向量與所述集合中的起始符合并作為融合門循環(huán)網(wǎng)絡(luò)模型的輸入,進入所述融合門循環(huán)網(wǎng)絡(luò)模型后經(jīng)過t0時間步產(chǎn)生第一隱藏層輸出;將所述第一隱藏層輸出與所述集合中的第一個詞向量合并作為t1時間步的輸入,進入所述融合門循環(huán)網(wǎng)絡(luò)模型經(jīng)過t1時間步獲得第二隱藏層輸出,如此循環(huán)迭代直至所述集合中所有詞向量全部參與循環(huán)迭代過程,融合門循環(huán)網(wǎng)絡(luò)模型訓(xùn)練完成;
(3)將待處理圖像輸入到訓(xùn)練完成的融合門循環(huán)網(wǎng)絡(luò)模型中生成語言信息。
可選地,所述步驟(1)中圖像數(shù)據(jù)集為MSCOCO2014數(shù)據(jù)集或者MSCOCO2017數(shù)據(jù)集。
進一步地,所述步驟(1)中將訓(xùn)練集中的圖像數(shù)據(jù)進行預(yù)處理,包括:
(1-1)將每一張圖像處理成224×224大小,并將每張圖像中的每一個自然語言語句與該圖像成對保存,一個圖像-自然語言語句作為一個圖像理解數(shù)據(jù);
(1-2)獲取所有圖像理解數(shù)據(jù)中具有最長序列的自然語言語句的長度,然后采用填充符將剩下的自然語言語句的序列填充至該長度,并且重新保存填充完畢的圖像理解數(shù)據(jù);
(1-3)統(tǒng)計所有自然語言語句中出現(xiàn)5次以上的單詞,依次去重、排序后統(tǒng)計單詞總個數(shù)k,給予每個單詞唯一的序號,將所有自然語言語句轉(zhuǎn)變?yōu)樾蛱栃蛄校⒂镁S度大小為k×1的列向量d表示所有單詞,列向量中對應(yīng)單詞序號的位置置為1,其余置為0,將該列向量送入維度大小為k×512詞嵌入矩陣Wd中轉(zhuǎn)換成維度大小為512的向量,一個這樣的向量稱為詞向量x,x=dTWd;該詞向量x作為循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于遼寧科技大學(xué),未經(jīng)遼寧科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110123810.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





