[發(fā)明專利]一種基于深度學(xué)習(xí)的圖像語義生成方法在審
| 申請?zhí)枺?/td> | 201611035273.5 | 申請日: | 2016-11-17 |
| 公開(公告)號: | CN108073941A | 公開(公告)日: | 2018-05-25 |
| 發(fā)明(設(shè)計)人: | 張威;周治平 | 申請(專利權(quán))人: | 江南大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 214122 江蘇省無錫市濱湖*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 圖像語義 卷積神經(jīng)網(wǎng)絡(luò) 時間記憶 人工標(biāo)注 長段 損失函數(shù) 神經(jīng)網(wǎng)絡(luò)技術(shù) 網(wǎng)絡(luò) 語義 反向傳播 模型結(jié)構(gòu) 圖像輸入 圖像特征 圖像整體 網(wǎng)絡(luò)生成 應(yīng)用卷積 構(gòu)建 學(xué)習(xí) 優(yōu)化 | ||
本發(fā)明公開了一種基于深度學(xué)習(xí)的圖像語義生成方法,該方法包括以下步驟:第一,通過圖像整體語義生成要求,構(gòu)建結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和長段時間記憶網(wǎng)絡(luò)的模型結(jié)構(gòu);第二,將人工標(biāo)注好的圖像輸入到預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò);第三,將人工標(biāo)注的圖像語義描述與卷積神經(jīng)網(wǎng)絡(luò)提取到的圖像特征輸入到長段時間記憶網(wǎng)絡(luò)中;第四,根據(jù)生成的圖像語義描述與人工標(biāo)注信息進(jìn)行計算其損失函數(shù);第五,根據(jù)損失函數(shù),反向傳播優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)和長段時間記憶網(wǎng)絡(luò)各個參數(shù)。本發(fā)明應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)技術(shù)和長短時間記憶網(wǎng)絡(luò)生成圖像語義描述。
技術(shù)領(lǐng)域
本發(fā)明涉及一種圖像語義生成方法,尤其涉及基于深度學(xué)習(xí)的圖像語義生成方法,屬于圖像處理技術(shù)領(lǐng)域。
背景技術(shù)
近年來,隨著圖像數(shù)量的劇增,人們迫切地需要實現(xiàn)圖像內(nèi)容的高效標(biāo)注,以實現(xiàn)大規(guī)模圖像的有效檢索與管理。從模式識別的角度來看,將圖像標(biāo)注問題視為根據(jù)內(nèi)容給圖像分配一組標(biāo)簽,其中如何選取表征圖像內(nèi)容的合適特征,將在很大程度上影響標(biāo)注性能。由于眾所周知的語義鴻溝問題,現(xiàn)有技術(shù)進(jìn)行圖像語義標(biāo)注時很難達(dá)到令人滿意的結(jié)果。近年來,等人提出利用深度神經(jīng)網(wǎng)絡(luò),從訓(xùn)練集中有效地訓(xùn)練特征。不同類型的深度神經(jīng)網(wǎng)絡(luò),已成功應(yīng)用于各種語言及信息檢索。這些方法通過深度結(jié)構(gòu)、深度學(xué)習(xí)從訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)隱藏的數(shù)據(jù)結(jié)構(gòu)及有效的表征特征,提高了系統(tǒng)性能。
現(xiàn)有的圖像語義標(biāo)注方法主要有以下兩種實現(xiàn)方式。第一種是由計算機(jī)在整幅圖像上提取特征,并對圖像進(jìn)行分類識別,也即,將整幅圖像作為分類器的輸入。然而,很多近似類別的圖像的整體相似度很高,例如,不同型號的三廂轎車的圖像可能只在若干細(xì)節(jié)上有區(qū)別,而從整幅圖像上提取的特征往往不足以準(zhǔn)確對這種細(xì)粒度的圖像分類進(jìn)行區(qū)分,語義標(biāo)注效果差。
第二種則是由人工確定圖像的顯著性區(qū)域,這些顯著性區(qū)域可以體現(xiàn)不同的細(xì)粒度圖像之間的差別,例如,不同品牌的車型的車標(biāo),不同品種的貓的眼睛。而后,再對這些顯著性區(qū)域提取特征,進(jìn)行細(xì)粒度的圖像語義標(biāo)注。但是,由于圖像數(shù)據(jù)庫中的像的數(shù)量巨大,要為每幅圖像人工確定其顯著性區(qū)域,顯然會消耗極大的人力資源,限制了這種解決方案的可行性。
更重要的是,以上兩種方法都只能對于圖像中具體目標(biāo)進(jìn)行標(biāo)注,無法描述圖像中各個目標(biāo)之間存在的語義關(guān)聯(lián),也就是說,以上方法只能指明圖中存在什么物體,但是無法“理解”圖中物體之間正在“做什么”。因此,只有解決這一問題,才能使圖像語義的自動理解更進(jìn)一步發(fā)展。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種基于深度學(xué)習(xí)的圖像語義生成方法,該方法首先使用了卷積神經(jīng)網(wǎng)絡(luò)CNN提取圖像高層語義特征,有效避免了使用底層圖像特征表達(dá)圖像含義時產(chǎn)生的“語義鴻溝”問題。然后將提取的圖像高層特征輸入到訓(xùn)練好的長短時間記憶LSTM網(wǎng)絡(luò)中生成圖像的描述語句。該方法可以生成圖像內(nèi)容的描述性語句,遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的只能對圖像中目標(biāo)進(jìn)行單獨(dú)標(biāo)注的方法。
本發(fā)明采取的技術(shù)方案為:一種基于深度學(xué)習(xí)的圖像語義生成方法,該方法主要包括以下步驟:
步驟1:通過圖像整體語義生成要求,構(gòu)建結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和長段時間記憶網(wǎng)絡(luò)的模型結(jié)構(gòu);
步驟2:通過訓(xùn)練數(shù)據(jù),根據(jù)設(shè)定的結(jié)果損失函數(shù),利用前向傳導(dǎo)、反向傳播和梯度下降優(yōu)化算法對所述預(yù)訓(xùn)練好卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到卷積神經(jīng)網(wǎng)絡(luò)模型;
步驟3:利用卷積神經(jīng)網(wǎng)絡(luò)提取的圖像的高層特征與標(biāo)注好的語義信息,根據(jù)設(shè)定的結(jié)果損失函數(shù),利用前向傳導(dǎo)、反向傳播和梯度下降優(yōu)化算法對長短時間記憶網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到長短時間記憶網(wǎng)絡(luò)模型,使用長短時間記憶網(wǎng)絡(luò)對圖像內(nèi)容進(jìn)行預(yù)測輸出;
步驟4:根據(jù)設(shè)定的結(jié)果損失函數(shù),利用前向傳導(dǎo)、反向傳播和梯度下降優(yōu)化算法訓(xùn)練數(shù)據(jù)對卷積神經(jīng)網(wǎng)絡(luò)和長短時間記憶網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練得到最終的圖像語義產(chǎn)生模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江南大學(xué),未經(jīng)江南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611035273.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 終端卷積神經(jīng)網(wǎng)絡(luò)的處理方法、裝置、存儲介質(zhì)及處理器
- 一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖像深度估計方法
- 卷積神經(jīng)網(wǎng)絡(luò)的生成方法及裝置
- 一種卷積神經(jīng)網(wǎng)絡(luò)硬件模塊部署方法
- 卷積神經(jīng)網(wǎng)絡(luò)的處理方法、裝置、設(shè)備及存儲介質(zhì)
- 一種卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法及裝置
- 一種基于通道數(shù)搜索卷積神經(jīng)網(wǎng)絡(luò)的方法
- 卷積神經(jīng)網(wǎng)絡(luò)處理方法、裝置和電子系統(tǒng)
- 一種基于空洞卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的聲音事件檢測方法
- 基于稀疏卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測方法及檢測裝置
- 一種基于深度學(xué)習(xí)的圖像自動化標(biāo)注方法及系統(tǒng)
- 圖像標(biāo)注的方法、基于病理圖像的標(biāo)注展示方法及裝置
- 模型輔助式數(shù)據(jù)標(biāo)注系統(tǒng)及標(biāo)注方法
- 一種數(shù)據(jù)標(biāo)注的檢測方法和裝置
- 一種實體詞的標(biāo)注方法、裝置、存儲介質(zhì)及設(shè)備
- 圖像處理方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 一種標(biāo)注方法及裝置、電子設(shè)備、存儲介質(zhì)
- 數(shù)據(jù)樣本擴(kuò)充的方法、裝置和電子設(shè)備
- 一種深度學(xué)習(xí)標(biāo)注方法、系統(tǒng)、計算機(jī)設(shè)備和存儲介質(zhì)
- 一種基于小樣本數(shù)據(jù)的人工輔助文本標(biāo)注方法及裝置





