[發(fā)明專利]一種基于CNN-LSTM的圖像字幕壓縮方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110257657.6 | 申請(qǐng)日: | 2021-03-09 |
| 公開(公告)號(hào): | CN113326840A | 公開(公告)日: | 2021-08-31 |
| 發(fā)明(設(shè)計(jì))人: | 王小華;令狐彬;焦璐璐;宋曉晨 | 申請(qǐng)(專利權(quán))人: | 山西三友和智慧信息技術(shù)股份有限公司 |
| 主分類號(hào): | G06K9/32 | 分類號(hào): | G06K9/32;G06F16/174;G06N3/04;G06N3/08 |
| 代理公司: | 深圳科潤(rùn)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44724 | 代理人: | 李小妮 |
| 地址: | 030000 山西省*** | 國(guó)省代碼: | 山西;14 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 cnn lstm 圖像 字幕 壓縮 方法 | ||
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,具體涉及一種基于CNN?LSTM的圖像字幕壓縮方法,包括如下步驟:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模型構(gòu)建、模型評(píng)價(jià),所述數(shù)據(jù)采集下載公共數(shù)據(jù)集flickr8k,對(duì)獲取圖像進(jìn)行數(shù)據(jù)標(biāo)注,根據(jù)圖像內(nèi)容進(jìn)行描述,完成數(shù)據(jù)集構(gòu)建;所述數(shù)據(jù)預(yù)處理對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,包括尺度縮放、數(shù)據(jù)歸一化和數(shù)據(jù)劃分三種方式;所述模型構(gòu)建采用CNN?LSTM模型用于數(shù)據(jù)訓(xùn)練,模型由編碼器VGG16和解碼器LSTM組成,編碼器獲取提取的特征,并使用特征來(lái)訓(xùn)練解碼器,同時(shí)將部分不太重要的權(quán)值進(jìn)行修剪,并將解碼器使用的LSTM模型進(jìn)行量化處理;所述模型評(píng)價(jià)當(dāng)模型的損失函數(shù)不再降低之后,保存模型,并進(jìn)行評(píng)價(jià)。
技術(shù)領(lǐng)域
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,具體涉及一種基于CNN-LSTM的圖像字幕壓縮方法。
背景技術(shù)
現(xiàn)代神經(jīng)網(wǎng)絡(luò)在實(shí)現(xiàn)計(jì)算機(jī)視覺、自然語(yǔ)言處理和相關(guān)領(lǐng)域的任務(wù)具有最先進(jìn)的性能且表現(xiàn)突出,然而,這種復(fù)雜的網(wǎng)絡(luò)需要很大的計(jì)算空間,阻礙了它們?cè)诘凸囊苿?dòng)設(shè)備上的可移植性,并且由于現(xiàn)代移動(dòng)設(shè)備的外形輕盈,這進(jìn)一步限制了它們的功率和熱容量,進(jìn)一步阻礙了它們?cè)谫Y源有限的邊緣設(shè)備上的部署。
存在問(wèn)題或缺陷的原因:近年來(lái),先進(jìn)的剪枝和量化算法在不影響網(wǎng)絡(luò)性能的情況下對(duì)此類網(wǎng)絡(luò)進(jìn)行壓縮方面獲得了良好的發(fā)展勢(shì)頭,修剪有助于減少對(duì)網(wǎng)絡(luò)性能變化不太敏感的參數(shù),另一方面,量子化在網(wǎng)絡(luò)工作周期中以較低的位精度進(jìn)行計(jì)算,這兩種方法的協(xié)同使更快的推理時(shí)間和高效存儲(chǔ)大型和密集的神經(jīng)網(wǎng)絡(luò),但如何將剪枝和量化方法與深度學(xué)習(xí)模型搭配使用仍然是當(dāng)前的難點(diǎn)。
發(fā)明內(nèi)容
針對(duì)上述神經(jīng)網(wǎng)絡(luò)圖像處理技術(shù)模型效率低等問(wèn)題,本發(fā)明提供了一種基于CNN-LSTM的圖像字幕壓縮方法。
為了解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案為:
一種基于CNN-LSTM的圖像字幕壓縮方法,包括下列步驟:
S100、數(shù)據(jù)采集:下載公共數(shù)據(jù)集flickr8k,對(duì)獲取圖像進(jìn)行數(shù)據(jù)標(biāo)注,根據(jù)圖像內(nèi)容進(jìn)行描述,完成數(shù)據(jù)集構(gòu)建;
S200、數(shù)據(jù)預(yù)處理:對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,包括尺度縮放、數(shù)據(jù)歸一化和數(shù)據(jù)劃分三種方式;
S300、模型構(gòu)建:采用CNN-LSTM模型用于數(shù)據(jù)訓(xùn)練,模型由編碼器VGG16和解碼器LSTM組成,編碼器獲取提取的特征,并使用特征來(lái)訓(xùn)練解碼器,同時(shí)將部分不太重要的權(quán)值進(jìn)行修剪,并將解碼器使用的LSTM模型進(jìn)行量化處理;
S400、模型評(píng)價(jià):當(dāng)模型的損失函數(shù)不再降低之后,保存模型,并進(jìn)行評(píng)價(jià)。
所述S100數(shù)據(jù)采集中,公共數(shù)據(jù)集flickr8k數(shù)據(jù)集中包含8000張圖像,每張圖像都與五個(gè)不同的標(biāo)題進(jìn)行配對(duì)。
所述S200數(shù)據(jù)預(yù)處理中,所述尺度縮放將數(shù)據(jù)劃分后的所有數(shù)據(jù)進(jìn)行縮放,按其大小比例調(diào)整為統(tǒng)一尺寸;所述數(shù)據(jù)歸一化對(duì)所有數(shù)據(jù)進(jìn)行歸一化操作,方式為對(duì)每個(gè)像素點(diǎn)除以225,所述數(shù)據(jù)劃分使用交叉驗(yàn)證法將數(shù)據(jù)集進(jìn)行劃分,數(shù)據(jù)集隨機(jī)選取90%的樣本作為訓(xùn)練集,剩余10%的樣本作為測(cè)試集。
所述S300模型構(gòu)建中,編碼器VGG16從輸入圖像中提取有意義的特征,采用漸進(jìn)式存儲(chǔ),將經(jīng)過(guò)修剪預(yù)先訓(xùn)練的VGG16模型所提取的特征分別存儲(chǔ),然后將特征輸入解碼器中,修剪方式為將不太重要的權(quán)值進(jìn)行零屏蔽,相對(duì)于損失函數(shù)的梯度,修剪有不同的層次,一般從50%到95%不等,本模型中,第0個(gè)epoch數(shù)之后,權(quán)重值小于閾值的掩模被設(shè)置為零,公式為:其中t0是一個(gè)超參數(shù);Si的下界通常為0%;sf的上界通常為50%到95%;二值掩模每Δt步更新一次,逐漸訓(xùn)練網(wǎng)絡(luò)以達(dá)到最終的稀疏級(jí)別;n表示epoch。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山西三友和智慧信息技術(shù)股份有限公司,未經(jīng)山西三友和智慧信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110257657.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 圖像語(yǔ)義標(biāo)注的設(shè)備和方法及其模型的生成方法和系統(tǒng)
- 使用卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字圖像處理
- 為數(shù)據(jù)庫(kù)確定卷積神經(jīng)網(wǎng)絡(luò)CNN模型的裝置和方法
- 確定卷積神經(jīng)網(wǎng)絡(luò)CNN模型的裝置和方法
- 采用嵌入式系統(tǒng)中的小規(guī)模卷積神經(jīng)網(wǎng)絡(luò)模塊的人臉檢測(cè)
- 針對(duì)深度通道和卷積神經(jīng)網(wǎng)絡(luò)圖像和格式使用相機(jī)設(shè)備的方法和系統(tǒng)
- 處理卷積神經(jīng)網(wǎng)絡(luò)的方法
- CNN加速器和電子設(shè)備
- 一種基于混合神經(jīng)網(wǎng)絡(luò)的腦電時(shí)空特征學(xué)習(xí)與情感分類方法
- 一種基于FPGA的深度學(xué)習(xí)加速方法
- 用于高階長(zhǎng)短期記憶網(wǎng)絡(luò)的系統(tǒng)和方法
- 基于深度學(xué)習(xí)LSTM的空調(diào)故障診斷方法
- 基于注意力機(jī)制的時(shí)間序列預(yù)測(cè)方法、裝置及存儲(chǔ)介質(zhì)
- 一種基于PCA-LSTM網(wǎng)絡(luò)的廢水處理智能監(jiān)控方法
- 一種基于FAF-LSTM深度神經(jīng)網(wǎng)絡(luò)的居民負(fù)荷預(yù)測(cè)方法及系統(tǒng)
- 用于預(yù)測(cè)血糖水平的循環(huán)神經(jīng)網(wǎng)絡(luò)裝置和系統(tǒng)
- 基于情景LSTM結(jié)構(gòu)網(wǎng)絡(luò)的微博情感分析方法
- 語(yǔ)音信號(hào)處理方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 基于約束并行LSTM分位數(shù)回歸的電力負(fù)荷概率預(yù)測(cè)方法
- 基于深度網(wǎng)絡(luò)AS-LSTM的命名實(shí)體識(shí)別系統(tǒng)及識(shí)別方法
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





