[發明專利]結合抽象語義表示的圖像描述生成方法、系統及介質有效
| 申請號: | 202010581219.0 | 申請日: | 2020-06-23 |
| 公開(公告)號: | CN111612103B | 公開(公告)日: | 2023-07-11 |
| 發明(設計)人: | 唐晉韜;陳鳳;李莎莎;龐焜元;王挺;王攀成;林登雯;何亮亮;徐欽杭 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F18/24;G06N3/0442;G06N3/092;G06F40/30;G06F40/126;G06F40/284 |
| 代理公司: | 湖南兆弘專利事務所(普通合伙) 43008 | 代理人: | 譚武藝 |
| 地址: | 410073 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結合 抽象 語義 表示 圖像 描述 生成 方法 系統 介質 | ||
本發明公開了一種結合抽象語義表示的圖像描述生成方法、系統及介質,本發明訓練用于生成圖像描述的語言生成器的步驟包括針對訓練數據集進行抽象語義表示標注;基于訓練數據集訓練抽象語義表示預測器;將圖像的候選區域視覺特征作為圖像的視覺特征,圖像的抽象語義表示特征作為語義特征作為輸入訓練語言生成器;使用訓練好的語言生成器對測試集圖像中的圖像生成圖像描述;針對語言生成器進行效果評測。本發明結合抽象語義表示的圖像描述生成方法可以充分利用圖像的抽象語義特征,充分發揮圖像視覺和語義特征的互補性,使兩種特征在描述生成的過程中相輔相成,使之互為補足,從而提高生成句子的質量,生成更準確和含義豐富的描述語句。
技術領域
本發明涉及圖像資源的信息增強方法,具體涉及一種結合抽象語義表示的圖像描述生成方法、系統及介質,用于使用圖像的抽象語義表示特征,在圖像描述生成任務中作為視覺特征的輔助信息,從而對圖像生成更準確且含義豐富的描述文本。
背景技術
隨著科技發展和信息時代到來,報紙、手機、相機及網絡社交媒體等提供了豐富的圖像資源,其中很大一部分圖像資源為視覺與語言信息的結合。這些多模態圖像信息的產生為我們實現更多應用場景提供了可能,比如理解/閱讀輔助,自動監控,無人駕駛汽車,自動標簽生成和對話系統等。圖像描述生成即為用于生成多模態圖像信息中語言描述信息的手段。
傳統的圖像理解任務生成無結構的標簽列表,它識別并分割出圖像中的對象、確定其對應屬性、計算對象和屬性的相互關系。而圖像描述生成則是對給定的一張圖像生成描述語句,準確且充分表達圖像所包含的內容。從計算機視覺角度來看,該任務極具挑戰性,因為它不僅要求模型準確識別圖像中的重要內容(對象、屬性及背景等),還要理解內容之間的關系,甚至推斷出未出現在圖像中的內容;從自然語言處理角度來看,該任務是一個自然語言生成(Natural?Language?Generation)問題,其需要將獲取到的圖像信息進行整合,從而進一步生成符合自然語言規則且準確描述圖像內容的句子。
基于生成的方法最先用于解決該問題,包括基于模版、句法分析和語言模型的方法。基于模版的方法預先定義包含多個空槽(slot)的模版,用模型識別到的對象、屬性和關系標簽對空槽進行填充,從而生成描述句子;基于句法分析的方法則首先識別對象、屬性、對象之間空間關系、場景類型、行為等,然后使用依存句法樹/圖將句子的各個部件逐步組合成句子;基于語言模型的方法首先生成多個候選句子片段,通過語言模型對這些片段進行重新組合,從而得到最終描述。此類方法受限于人工設計的模板、不完備的語言以及句法模型,生成的句子形式單一,不具有多樣性。
基于檢索的方法將該任務看作檢索問題。它首先用將輸入圖像表示為特定的特征,然后基于圖像特征的相似性由訓練數據集找到相似的圖像候選,這些候選圖像對應的描述即生成描述句子的候選,最后通過一定的排序算法得到最終結果。該類方法充分利用訓練數據集,但是其依賴于訓練語料,不能生成訓練集以外的文本,當測試集于訓練集相關性不大時,結果會很差。
得益于深度學習技術的發展,基于編碼-解碼框架的方法取得了突出的效果并成為近幾年圖像描述生成任務的主流解決方法。該方法首先在編碼階段使用深度卷積神經網絡(CNN)提取圖像特征,在解碼階段,使用編碼階段的輸出作為RNN/LSTM等序列生成模型的輸入,生成描述文本。人類視覺系統中的注意力機制被引入深度學習,使基于注意力的模型成為圖像描述生成任務的主體框架。此類框架使用Faster?R-CNN提取圖像的多個候選塊,從而在圖像部分實現不同區域之間實現注意力機制,在文本生成部分改進原始LSTM結構,同時采用強化學習技術進一步優化模型性能。還有工作將屬性、關系、外部知識和場景圖等額外信息引入模型作為圖像的輔助信息以生成更準確和含義豐富的描述語句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010581219.0/2.html,轉載請聲明來源鉆瓜專利網。





