[發明專利]基于語言先驗問題識別和緩解的視覺問答預測方法及系統在審
| 申請號: | 201910407218.1 | 申請日: | 2019-05-15 |
| 公開(公告)號: | CN110309850A | 公開(公告)日: | 2019-10-08 |
| 發明(設計)人: | 程志勇;郭洋洋;劉一兵;聶禮強;宋雪萌;王英龍 | 申請(專利權)人: | 山東省計算中心(國家超級計算濟南中心) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F11/36;G06N3/04;G06N5/02 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 先驗 視覺 語言 預測 測試語言 問題識別 答案 測試步驟 測試圖像 語言問題 測試 輸出 測試集 緩解 準確率 圖像 | ||
本公開公開了基于語言先驗問題識別和緩解的視覺問答預測方法及系統,包括:測試步驟:將測試集的測試圖像、測試語言問題和測試語言答案,均輸入到初步訓練好的視覺問答模型中,對初步訓練好的視覺問答模型進行測試;在測試的過程中,根據模型輸出的語言答案的準確率計算語言先驗得分;如果語言先驗得分超過設定閾值,表示當前模型存在語言先驗問題,則重新對視覺問答模型進行訓練;如果語言先驗得分低于設定閾值,表示當前模型不存在語言先驗問題,即當前模型即為訓練好的視覺問答模型;預測步驟:將待預測的圖像和語言問題,輸入到訓練好的視覺問答模型中,輸出最終的預測語言答案。
技術領域
本公開涉及視覺問答技術領域,特別是涉及基于語言先驗問題識別和緩解 的視覺問答預測方法及系統。
背景技術
本部分的陳述僅僅是提到了與本公開相關的背景技術,并不必然構成現有 技術。
受益于計算機視覺,自然語言處理和信息檢索技術的進步,旨在回答關于 圖像或視頻的問題的視覺問題回答在過去幾年中受到了很多關注。雖然到目前 為止取得了一些進展,但一些研究指出,目前的視覺問答模型受到語言先驗問 題的嚴重影響。
在實現本公開的過程中,發明人發現現有技術中存在以下技術問題:
問答一直被認為是一項具有挑戰性的信息檢索任務。一開始,它只關注文 本域。隨著自然語言處理,計算機視覺和信息檢索的巨大進步,一種新的“人工 智能完成”任務,即視覺問答,已經成為一個新興的跨學科研究領域。過去幾年。 視覺問答旨在準確回答有關給定圖像或視頻的自然語言問題,為各種應用帶來 光明前景,包括醫療援助和人機交互。最近,已經構建了幾個基準數據集來促 進這項任務,接著是許多設計的深度模型。
盡管這些方法在目前顯示出了優秀的性能,但許多研究指出,當今的視覺 問答模型仍然受到訓練數據中問題和答案之間依賴關系的嚴重驅動。并且,根 據實驗證明,精心設計的視覺問答模型實際上是根據問題中的前幾個單詞提供 答案,并且常常能有不差的性能。以視覺問答1.0提供的訓練集為例,其中答 案為2的問題個數占整個數據集的31%。這導致視覺問答模型在測試時遇到“...... 有多少”的問題時,常常并沒有真正理解給定的圖像而作答。于此,關于模型所 預測的答案是由訓練集中相同問題類型的答案集所強烈驅動的情況,稱之為視 覺問答中的語言先驗問題。
不難理解語言先驗問題的原因,但是,這個問題不容易處理。其中一個原 因是在強先驗的情況下處于獨立且相同分布的訓練、測試集的性質所導致的。 因此,很難判斷一個表現良好的模型是由在圖像理解方面取得進展所導致的, 還是僅依賴于語言先驗。此外,在不降低模型性能的情況下解決語言先驗問題 也是另一個挑戰。
隨著視覺問答中語言先驗問題的發現,研究者已經投入了大量精力來解決 或以某種方式推斷問題,并開發了一套方法。該方法可大致分為兩個方向:1) 使數據集偏差變小;2)通過增強對圖像內容的分析使模型回答問題。在第一個 方向,研究者旨在通過添加補充數據來平衡現有的數據集。更具體地說,對于 數據集中每個<圖像,問題,答案>三元組,收集具有相似的圖像但答案不同的 一個三元組以提升圖像在視覺問答中的作用。然而,即使有這種平衡,增強后 的視覺問答2.0數據集仍然存在顯著的偏差。例如,對于“......有多少”的問題, 答案為2的問題數目仍然占該問題總數的27%。另外,還有研究者設計了一個 診斷3D形狀的數據集,通過對相關問題簇內進行拒絕采樣來控制基于問題所造 成的偏差。由于他們皆從數據集的角度處理問題,以試圖避免傳統數據集所固 有的缺陷,因此先前方法的語言先驗問題仍然未解決。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東省計算中心(國家超級計算濟南中心),未經山東省計算中心(國家超級計算濟南中心)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910407218.1/2.html,轉載請聲明來源鉆瓜專利網。





