[發明專利]一種基于多層編碼器的并行圖像描述方法有效
| 申請號: | 202010768564.5 | 申請日: | 2020-08-03 |
| 公開(公告)號: | CN111901610B | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 楊小寶;武君勝;何嬋;王軍;王文濤 | 申請(專利權)人: | 西北工業大學;西安郵電大學 |
| 主分類號: | H04N19/436 | 分類號: | H04N19/436;H04N19/42;G06T9/00 |
| 代理公司: | 西安銘澤知識產權代理事務所(普通合伙) 61223 | 代理人: | 耿路 |
| 地址: | 710068 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多層 編碼器 并行 圖像 描述 方法 | ||
本發明公開了一種基于多層編碼器的并行圖像描述方法,涉及計算機視覺技術領域,方法包括:輸入待描述的圖像;對圖像進行編碼處理,獲得多層特征;對每一層特征分別進行維度變換,降低特征的維度;將維度變換后的多層特征輸入解碼器,對多層特征進行并行解碼處理,得到相應的圖像描述。本發明將編碼器輸出的多層特征采取順序或者逆序并行的方式輸入解碼器中,產生對圖像中各層目標的語義描述,滿足細粒度的描述要求。
技術領域
本發明涉及計算機視覺技術領域,特別是涉及一種基于多層編碼器的并行圖像描述方法。
背景技術
隨著人工智能時代的到來,視覺技術對人類實現機器人或無人系統的智能化作用越來越重要。它被廣泛的應用于生產制造、道路交通、公共安全等領域,如在線產品缺陷檢測、車輛與行人識別、海空多目標識別等。隨著人工智能技術的進一步發展,除了讓視覺系統具備“觀察”事物能力外,讓其擁有“理解”事物的能力,則將使機器人或其它無人系統在復雜的場景中做出更為準確的決策和服務。
圖像描述(image captioning/descriptive),是計算機視覺、自然語言處理交叉領域中關于場景理解任務的一個主要研究方向,也是當前人工智能領域跨學科研究的熱點和難點。圖像描述是通過對輸入圖像或視頻內容分析后,自動生成一條或若干條描述圖像內容的語句,告訴人們或機器人關于圖像的內容,如:“這些人在哪里?(例如,海灘,咖啡館),穿什么?重要的是他們在那里做什么”,就像看圖說話一樣。2015年谷歌團隊受循環神經網絡(RNN)做機器翻譯啟發,將機器翻譯中編碼源文字的循環神經網絡(RNN)替換成卷積神經網絡(CNN)來編碼圖像,希望用這種方式來獲得圖像的描述,實驗效果大大超越了當時最先進的結果。自那之后,“編碼器-解碼器”這一系列模型以及他們的變體就在圖像描述任務中變得很受歡迎。而從編碼器中提取的特征需要怎樣處理或選擇之后輸入進解碼器使其生成的句子效果更好對于圖像場景理解任務變得越來越重要。
在計算機視覺領域,基礎網絡的特征輸出,對目標檢測任務有至關重要的影響,比如高層特征對大目標檢測具有很好的貢獻,低層特征則對小目標有較大的貢獻。同樣對于圖像場景理解而言,高層或低層特征的選擇對語句的生成也有重大影響,所以當前國內外所提圖像描述算法,基本上都是選擇基礎網絡的最高層作為場景特征的表示,而這并不能滿足粒度更細的描述要求。例如在交通領域,圖像描述可以用于盲人導航,如果僅用最高層的特征輸入解碼器生成描述,常常不能生成小目標的描述,而這些小目標描述可能會給盲人行走過程中帶來危險。
發明內容
本發明實施例提供了一種基于多層編碼器的并行圖像描述方法,采用多層并行解碼的方法解決現有技術中存在的問題。
本發明提供了一種基于多層編碼器的并行圖像描述方法,包括以下步驟:
輸入待描述的圖像;
對圖像進行編碼處理,獲得多層特征;
對每一層特征分別進行維度變換,降低特征的維度;
將維度變換后的多層特征輸入解碼器,對多層特征進行并行解碼處理,得到相應的圖像描述。
優選地,維度變換后的多層特征采用以下方式輸入解碼器:
從低層到高層并行輸進解碼器從低層到高層的堆疊層中。
優選地,所述解碼器對多層特征進行并行解碼處理的方法如下:
把最低層特征與標準語句的序列信息輸進解碼器的第一層layer 1,生成第一層的描述;
提取第一層描述的語義送進解碼器的第二層layer 2,同時在layer 2輸入次低層的特征,生成第二層的描述;
提取第二層描述的語義送進解碼器的第三層layer 3,同時在layer 3輸入次次低層的特征,生成第三層的描述;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學;西安郵電大學,未經西北工業大學;西安郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010768564.5/2.html,轉載請聲明來源鉆瓜專利網。





