[發(fā)明專利]一種多級聯(lián)結(jié)循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像描述方法有效
| 申請?zhí)枺?/td> | 201611155798.2 | 申請日: | 2016-12-14 |
| 公開(公告)號: | CN106599198B | 公開(公告)日: | 2021-04-06 |
| 發(fā)明(設(shè)計(jì))人: | 胡海峰;吳捷;張俊軒;楊梁;王偉軒 | 申請(專利權(quán))人: | 廣東順德中山大學(xué)卡內(nèi)基梅隆大學(xué)國際聯(lián)合研究院;中山大學(xué) |
| 主分類號: | G06F16/58 | 分類號: | G06F16/58;G06F16/51;G06N3/08 |
| 代理公司: | 廣州粵高專利商標(biāo)代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 528300 廣東省佛山市順德區(qū)大良*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 多級 聯(lián)結(jié) 循環(huán) 神經(jīng)網(wǎng)絡(luò) 圖像 描述 方法 | ||
1.一種多級聯(lián)結(jié)循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像描述方法,其特征在于,包括以下步驟:
S1:從標(biāo)注語句訓(xùn)練集中提取語義屬性,構(gòu)建屬性詞匯表;
S2:采用VGGNet模型作為CNN初始模型,采用單標(biāo)簽的ImageNet數(shù)據(jù)集進(jìn)行CNN的參數(shù)預(yù)訓(xùn)練,然后再用多標(biāo)簽數(shù)據(jù)集MS COCO進(jìn)行CNN參數(shù)的精細(xì)調(diào)整;
S3:輸入待描述的圖像,將其分割成不同的區(qū)域,輸入到訓(xùn)練好的CNN中,將圖像信息表達(dá)成高等級的語義信息,得到語義屬性預(yù)測概率;
S4:將圖像送入CNN網(wǎng)絡(luò)中提取出描述不同區(qū)域的釋義向量;
S5:根據(jù)上一層LSTM的隱變量的信息計(jì)算出每個釋義對應(yīng)的權(quán)重,再根據(jù)釋義向量以及其對應(yīng)權(quán)重計(jì)算出上下文向量;
S6:將語義屬性預(yù)測概率及上下文向量輸入到多級聯(lián)結(jié)的循環(huán)神經(jīng)網(wǎng)絡(luò)中,輸出的結(jié)果的組合即為該圖像的自然語言描述。
2.根據(jù)權(quán)利要求1所述的多級聯(lián)結(jié)循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像描述方法,其特征在于,所述步驟S2中,將CNN最后一個全連接層的輸出輸入到一個256分類的softmax分類器中,然后最小化損失函數(shù)即可,其中,N代表訓(xùn)練樣本數(shù);yij=[yi1,yi2,······,yic]是第i個圖像對應(yīng)的標(biāo)簽向量;pij=[pi1,pi2,······,pic]是對應(yīng)的預(yù)測向量。
3.根據(jù)權(quán)利要求2所述的多級聯(lián)結(jié)循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像描述方法,其特征在于,所述步驟S3中,采用多尺度組合分組MCG算法將一張輸入圖像分割成不同的局部區(qū)域圖片,再將這些圖片送入步驟S2訓(xùn)練好的CNN中,采用最大池化算法得到語義屬性預(yù)測概率Vatt(I)。
4.根據(jù)權(quán)利要求3所述的多級聯(lián)結(jié)循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像描述方法,其特征在于,所述步驟S4中,將圖像送入VGGNet網(wǎng)絡(luò)中,并從VGGNet的conv5_3層中取出描述不同區(qū)域的釋義向量ai。
5.根據(jù)權(quán)利要求4所述的多級聯(lián)結(jié)循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像描述方法,其特征在于,所述步驟S5中,根據(jù)上一層LSTM的隱變量的信息ht-1可以計(jì)算出每個釋義對應(yīng)的權(quán)重αi,再根據(jù)計(jì)算出上下文向量zt。
6.根據(jù)權(quán)利要求5所述的多級聯(lián)結(jié)循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像描述方法,其特征在于,所述步驟S6中,使用x和p代表循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM的輸入與輸出,t代表生成描述的自然語句的長度,則整個網(wǎng)絡(luò)訓(xùn)練的具體過程如下:
S61:將語義屬性預(yù)測概率送入第一個的LSTM中,此時第一個LSTM的輸入為x-1=WeaVatt(I),其中Wea為屬性權(quán)重矩陣,除此以外生成隱變量h-1送入下一個LSTM中;
S62:對于每一層LSTM,將xt和上一層隱變量信息ht-1送入LSTM的計(jì)算單元,其中:xt=WesZt,zt為上下文向量,Wes為上下文向量嵌入矩陣;
S63:LSTM單元進(jìn)行計(jì)算,得到圖像描述的輸出結(jié)果:pt+1=LSTM(xt,ht-1),其中,函數(shù)LSTM(·)代表著長短時記憶單位中遺忘層,更新層,輸出層的信息傳遞與計(jì)算。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東順德中山大學(xué)卡內(nèi)基梅隆大學(xué)國際聯(lián)合研究院;中山大學(xué),未經(jīng)廣東順德中山大學(xué)卡內(nèi)基梅隆大學(xué)國際聯(lián)合研究院;中山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611155798.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 具有聯(lián)結(jié)部分的自行車零件及從而設(shè)置的聯(lián)軸節(jié)
- 聯(lián)結(jié)玩具、聯(lián)結(jié)玩具的聯(lián)結(jié)裝置、以及聯(lián)結(jié)玩具的聯(lián)結(jié)方法
- 砂芯聯(lián)結(jié)器
- 砂芯聯(lián)結(jié)器
- 一種用于車身骨架中的型材接頭
- 摩托車大燈的支架結(jié)構(gòu)
- 軟聯(lián)結(jié)夾具、帶有軟聯(lián)結(jié)夾具的多層機(jī)械手及全自動焊接系統(tǒng)
- 一種聯(lián)結(jié)穩(wěn)定可防止扭轉(zhuǎn)的香菇栽培支架用聯(lián)結(jié)件
- 裝配式輕鋼龍骨墻體直角聯(lián)結(jié)構(gòu)件
- 一種聯(lián)結(jié)穩(wěn)定可防止扭轉(zhuǎn)的香菇栽培支架用聯(lián)結(jié)件
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





