[發(fā)明專利]一種圖像語義細粒度的描述生成方法有效
| 申請?zhí)枺?/td> | 202011387365.6 | 申請日: | 2020-12-01 |
| 公開(公告)號: | CN112528989B | 公開(公告)日: | 2022-10-18 |
| 發(fā)明(設(shè)計)人: | 李紅波;湯躍;吳渝 | 申請(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號: | G06V10/25 | 分類號: | G06V10/25;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 重慶市恒信知識產(chǎn)權(quán)代理有限公司 50102 | 代理人: | 陳棟梁 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 圖像 語義 細粒度 描述 生成 方法 | ||
本發(fā)明請求保護一種圖像語義細粒度的描述生成方法,屬于計算機視覺和自然語言處理相融合的領(lǐng)域,解決了現(xiàn)有技術(shù)生成的圖像語義描述粗糙不夠精細的問題。該方法包括以下步驟:選取數(shù)據(jù)集和語料庫,并對數(shù)據(jù)預(yù)處理;引入注意力機制的網(wǎng)絡(luò)提取感興趣區(qū)域特征,并根據(jù)感興趣區(qū)域特征得到語義補充區(qū)域特征;將感興趣區(qū)域特征輸入到第一個長短時記憶網(wǎng)絡(luò),生成粗糙的圖像語義描述;將已生成的圖像語義描述輸入到第二個長短時記憶網(wǎng)絡(luò),并根據(jù)語義補充區(qū)域特征對圖像語義描述進行細化更新,獲得圖像語義細粒度的描述內(nèi)容。該方法不僅提高了圖像語義描述的精確度,還提高了圖像語義描述的細粒度。
技術(shù)領(lǐng)域
本發(fā)明屬于計算機視覺和自然語言處理技術(shù)領(lǐng)域,特別是涉及一種圖像語義細粒度的描述生成方法。
背景技術(shù)
在人工智能的時代背景下,運用計算機理解圖像,獲取圖像語義描述是一項具有前景的研究。運用計算機語義化理解圖像,不僅涉及到計算機視覺,也與自然語言處理息息相關(guān),是一項融合計算機視覺技術(shù)與自然語言處理技術(shù)的綜合任務(wù)。計算機對圖像進行語義分析、理解和自動描述是極具潛力的應(yīng)用。對圖像語義描述技術(shù)的推廣研究也將為相關(guān)領(lǐng)域帶來更廣闊的應(yīng)用場景,如圖像檢索、安全輔助駕駛、為視覺障礙人士提供視覺輔助、智能服務(wù)機器人和幼兒教育等領(lǐng)域。
早期的圖像描述方法是通過將從圖像中提取的對象和屬性填充到預(yù)定義的句子模板中;隨著深度學(xué)習(xí)的發(fā)展,目前主流的方法是基于編碼器-解碼器的體系結(jié)構(gòu),其中使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,使用循環(huán)神經(jīng)網(wǎng)絡(luò)生成圖像描述內(nèi)容。
當前圖像語義描述模型對于內(nèi)容復(fù)雜的圖像,如圖像中存在多義和不確定的事務(wù)、隱式和顯式的信息、復(fù)雜場景、復(fù)雜的對象與對象的關(guān)系等,生成的描述難以完整地描述圖像語義,描述內(nèi)容過于簡單。
發(fā)明內(nèi)容
本發(fā)明旨在解決以上現(xiàn)有技術(shù)的問題。提出了一種旨在針對當前圖像描述難以完整地描述圖像語義以及生成的描述內(nèi)容過于簡單的問題,圖像語義細粒度的描述生成方法。本發(fā)明的技術(shù)方案如下:
一種圖像語義細粒度的描述生成方法,其包括以下步驟:
步驟1:獲取開源并且已經(jīng)標注描述的圖像數(shù)據(jù)集,根據(jù)數(shù)據(jù)集的大小,劃分訓(xùn)練集、驗證集和測試集;抓取網(wǎng)絡(luò)上公開的文本數(shù)據(jù),構(gòu)建語料庫;
步驟2:對步驟1的圖像數(shù)據(jù)和文本數(shù)據(jù)進行綁定、篩選、轉(zhuǎn)格式和向量化的預(yù)處理;
步驟3:引入注意力機制的網(wǎng)絡(luò)模型對圖像進行特征提取,引入注意力機制的網(wǎng)絡(luò)模型自動選定圖像中感興趣的提議區(qū)域,并提取此區(qū)域的圖像特征;
步驟4:根據(jù)步驟3提取出的感興趣區(qū)域圖像特征作為反饋,對全局特征進一步篩選,提取出語義補充區(qū)域的特征。
步驟5:將步驟3提取出的感興趣區(qū)域的特征輸入到第一個長短時記憶網(wǎng)絡(luò),生成粗糙的圖像語義描述;
步驟6:將步驟4提取出的語義補充區(qū)域的特征和步驟5已生成的圖像語義描述輸入到第二個長短時記憶網(wǎng)絡(luò),LSTM根據(jù)補充區(qū)域的特征細化圖像語義的描述,最終得到圖像語義細粒度的描述。
進一步的,所述步驟1具體采用的數(shù)據(jù)集如下:
a:Flickr30k數(shù)據(jù)集,經(jīng)過選取和切分,包含29000張訓(xùn)練圖片,1000張驗證圖片,1000張測試圖片;
b:抓取100多萬條英文句子組成圖像描述語料庫。
進一步的,所述步驟2對步驟1的圖像數(shù)據(jù)和文本數(shù)據(jù)進行預(yù)處理,具體包括步驟:
將圖像數(shù)據(jù)調(diào)整為相同的尺寸;去除語料庫的符號、數(shù)字和特殊字符,將所有的文本數(shù)據(jù)轉(zhuǎn)換為預(yù)定義的json格式,設(shè)置最大的單詞頻率,將出現(xiàn)次數(shù)超過設(shè)置的單詞頻率的單詞,添加到詞典中;將出現(xiàn)次數(shù)低于設(shè)置的單詞頻率的單詞,使用預(yù)設(shè)符號代替,構(gòu)建出詞典;根據(jù)詞典的大小,通過Word2Vec編碼方法對單詞進行詞向量化。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011387365.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 一種管理和傳送細粒度業(yè)務(wù)的方法
- 基于CPU硬件性能監(jiān)控計數(shù)器的CPI精確測量方法
- 一種基于改進YOLOv3的細粒度圖像分類方法
- 細粒度對象流量分析方法和裝置
- 一種基于點云數(shù)據(jù)建模的方法、裝置和電子設(shè)備
- 細粒度圖像分類方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)
- 基于圖像卷積特征的復(fù)雜背景下害蟲細粒度圖像識別方法
- 一種細粒度分類模型的優(yōu)化方法、系統(tǒng)及相關(guān)裝置
- 一種結(jié)合注意力混合裁剪的細粒度圖像識別方法
- 基于分級式結(jié)構(gòu)的細粒度視頻動作識別方法





