[發明專利]一種基于多源協同特征的圖像描述生成方法有效

申請號：	202110128180.1	申請日：	2021-01-29
公開（公告）號：	CN112819012B	公開（公告）日：	2022-05-03
發明（設計）人：	孫曉帥;紀榮嶸;駱云鵬	申請（專利權）人：	廈門大學
主分類號：	G06V10/46	分類號：	G06V10/46;G06V10/25;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08
代理公司：	廈門南強之路專利事務所(普通合伙) 35200	代理人：	馬應森
地址：	361005 福建***	國省代碼：	福建;35
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于協同特征圖像描述生成方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

一種基于多源協同特征的圖像描述生成方法，涉及多源特征提取、強化和融合，屬于人工智能技術領域，包括如下步驟：步驟1，采用目標檢測器同時提取圖像的網格特征和區域特征；步驟2，利用特征的絕對和相對位置信息，輔助模型進行特征理解和兩種特征內部的交互和增強；步驟3，利用特征間的幾何對齊關系，讓兩種特征進行交互增強，交換重要的視覺信息，實現更好的視覺表達。此種方法針對傳統基于單源特征的圖像描述方法缺少場景和細節信息的局限性，提出多源協同特征提取、融合和增強方法，強化視覺先驗，從而提高生成描述的準確性。

技術領域

本發明涉及多源特征提取、強化和融合，尤其是涉及一種基于多源協同特征的圖像描述生成方法。

背景技術

圖像描述生成是為輸入圖像自動生成描述性語句的任務。圖像描述生成任務橫跨計算機視覺和自然語言處理兩個領域，它的主要挑戰不僅在于通過物體識別、場景識別、屬性和關系檢測等對圖像中的對象和關系進行全面理解，還在于生成符合視覺語義的流暢句子。圖像描述生成的應用面很廣泛，可以幫助自動駕駛領域理解道路情況，也可以幫助視覺障礙者了解所處的環境。

盡管圖像描述生成任務充滿挑戰，經過多年的發展，圖像描述生成的仍然取得了很大的進步，在基準數據集和方法上都取得了很大的進展。Lin等人(Lin,T.-Y.；Maire,M.；Belongie,S.；Hays,J.；Perona,P.；Ramanan,D.；Dollar,P.；and Zitnick,C.L.2014.Microsoft coco:Common objects in context.In ECCV.)提出圖像描述生成的基準數據集COCO。Vinyals等人(Vinyals,O.；Toshev,A.；Bengio,S.；and Erhan,D.2015.Show and tell:A neural image caption generator.In CVPR.)首次借鑒機器翻譯領域的編碼器解碼器結構作為圖像描述生成的一大范式。Anderson等人(Rennie,S.J.；Marcheret,E.；Mroueh,Y.；Ross,J.；and Goel,V.2017.Self-critical sequencetraining for imagecaptioning.In CVPR)提出一種使用目標檢測器提供圖像先驗的方法。Rennie等人(Anderson,P.；He,X.；Buehler,C.；Teney,D.；Johnson,M.；Gould,S.；andZhang,L.2018.Bottom-up and top-down attention for image captioning and visualquestion answering.In CVPR.)則使用強化學習方法來解決圖像描述生成網絡訓練和測試時行為不一致的問題。

上述工作為圖像描述生成打下了堅實基礎。與早期方法中使用的網格特征相比，Anderson等人提出的通過目標檢測網絡提出了區域特征，因為圖像中的大多數顯著區域往往都是目標，因此區域特征極大地降低了視覺語義嵌入的難度。盡管取得了巨大的成功，但是區域特征仍然因缺乏上下文信息和細粒度細節而備受詬病。檢測到的區域可能沒有覆蓋整個圖像，導致無法正確地描述全局場景。同時，每個區域都由一個單一的特征向量來表示，這不可避免地會丟失大量的對象細節。然而，這些缺點是網格特征的優點，相比之下，網格特征以更零碎的形式覆蓋了給定圖像的所有內容。

基于這樣的背景，本發明選擇研究基于多源協同特征的圖像描述生成方法，來彌補現有方法中的不足，得到更加準確、精細的圖像描述內容，推進圖像描述生成的工業化應用的步伐。

發明內容

本發明的目的在于針對傳統圖像報告生成方法圖像特征上的缺點，提出多源特征協同的方法，提取并使用多樣的圖像特征，以此強化圖像先驗信息，進行更加準確細致的圖像描述生成的一種基于多源協同特征的圖像描述生成方法。

本發明包括以下步驟：

1)采用目標檢測器同時提取圖像的網格特征和區域特征；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于廈門大學，未經廈門大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110128180.1/2.html，轉載請聲明來源鉆瓜專利網。