[發明專利]一種視覺問答預測方法、系統及存儲介質在審
| 申請號: | 202110136865.0 | 申請日: | 2021-02-01 |
| 公開(公告)號: | CN112948609A | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 楊超;馮溯;蔣斌 | 申請(專利權)人: | 湖南大學 |
| 主分類號: | G06F16/532 | 分類號: | G06F16/532;G06K9/62;G06N3/04 |
| 代理公司: | 長沙正奇專利事務所有限責任公司 43113 | 代理人: | 馬強;王娟 |
| 地址: | 410082 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視覺 問答 預測 方法 系統 存儲 介質 | ||
本發明公開了一種視覺問答預測方法、系統及存儲介質,利用語言偏差構建一個聯合損失函數去優化內容模塊,上下文模塊和最終的答案預測。這個聯合損失函數包含內容損失,上下文損失和預測損失。內容損失用于優化內容模塊的預測,以減少語言偏差帶來的統計先驗;上下文損失用于優化上下文模塊的預測,以保留語言偏差帶來的上下文先驗;預測損失用于優化兩個模塊共同決定的預測答案分布。在這三個損失的聯合作用下,模型能夠在消除語言偏差和獲取先驗知識間取得一個平衡,具有更好的魯棒性。
技術領域
本發明涉及人機交互技術領域,特別是一種視覺問答預測方法、系統及存儲介質。
背景技術
隨著互聯網的發展,圖像,文本,視頻,音頻等多模態數據以驚人的速度增長和累積,同時深度學習在計算機視覺,自然語言處理,語音識別等領域的成功,加速了傳統人工智能向跨模態人工智能的轉變。在這樣的背景下,研究體現人類對多模態信息理解的問答系統具有重要意義。問答系統一直以來都是體現人工智能的一種通用方法,同時由于視覺信息占據了人腦數據處理的絕大部分,圖像處理技術的發展也日趨成熟,基于圖像和文本的視覺問答系統得到了很多的關注和研究。
視覺問答[1]的概念在2014年被提出,該任務通過對一幅圖像提出問題并讓機器來回答的方式,旨在檢驗機器對圖像和問題的理解能力。具體地,將視覺問答任務定義為一種算法,該算法的輸入是一幅圖像和關于該圖像的自然語言問題,輸出是關于這個問題的自然語言答案。視覺問答任務非常具有挑戰性,模型需要對圖像和文本兩種模態數據進行感知,識別和理解,并通過多模態交互,融合,推理得到答案。
最近研究表明,視覺問答模型的早期結果使人們高估了它們的性能,大多數現有模型對圖片信息的利用不足,過度依賴于數據集中的語言偏差[2],使得模型無需利用圖像就能正確回答問題。這種偏差一部分可以概括為“語言先驗”[3],即模型利用問題與答案之間強烈的相關性,而忽視圖片的相應內容,得到結果;另一部分可以概括為“視覺啟動偏差”[4],即模型利用提問者根據圖片內容進行提問的傾向性,僅根據問題的一部分,就得到結果。這嚴重限制了視覺問答的實際應用,因為現實世界中問題與答案間的統計分布與數據集中的分布是存在明顯差異的。
現存的應對語言偏差的方法,大致可以分為兩種:基于額外數據的方法和非基于額外數據的方法。基于額外數據的方法通常寄希望于構建更平衡的數據集,或者通過額外的注釋和視覺監督去減少模型對語言偏差的依賴。但這樣往往意味著需要額外的數據標注成本和訓練代價。而非基于額外數據的方法往往通過特定的學習策略,減少語言偏差對模型的影響,但這樣會使得模型的預測準確率有明顯的下降。因為語言偏差對模型并不全是壞的影響,它也能幫助模型學習到一些上下文先驗,以過濾掉不必要的答案候選。
發明內容
本發明所要解決的技術問題是,針對現有技術不足,提供一種視覺問答預測方法、系統及存儲介質,避免模型僅根據片面的信息作出錯誤的預測。
為解決上述技術問題,本發明所采用的技術方案是:一種視覺問答預測方法,其特征在于,包括以下步驟:
S1、獲取待提問的圖像v,對圖像進行特征提取,獲得區域視覺特征fv(v);獲取關于圖像的自然語言問題,對所述自然語言問題q進行特征提取,獲得問題特征fq(q);
S2、構建偏差模型,以所述自然語言問題q為偏差模型的輸入,捕獲語言偏差b;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學,未經湖南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110136865.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多功能微分精密分條治具
- 下一篇:一種阻燃抗靜電羊毛混紡面料





