[發(fā)明專利]開放域視覺語言問答方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)在審

申請(qǐng)?zhí)枺?/td>	202310417662.8	申請(qǐng)日：	2023-04-18
公開（公告）號(hào)：	CN116561272A	公開（公告）日：	2023-08-08
發(fā)明（設(shè)計(jì)）人：	冼廣銘;張文聰;柳寒	申請(qǐng)（專利權(quán)）人：	華南師范大學(xué)
主分類號(hào)：	G06F16/332	分類號(hào)：	G06F16/332;G06F16/36;G06F16/58
代理公司：	廣州駿思知識(shí)產(chǎn)權(quán)代理有限公司 44425	代理人：	吳靜芝
地址：	528225 廣東省佛山市***	國(guó)省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	開放視覺語言問答方法裝置電子設(shè)備存儲(chǔ) 介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及一種開放域視覺語言問答方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。本發(fā)明所述的開放域視覺語言問答方法包括：對(duì)圖像進(jìn)行編碼，將所述圖像映射為一組視覺向量；對(duì)問題進(jìn)行嵌入標(biāo)記，得到詞嵌入序列；將所述視覺向量和所述詞嵌入序列進(jìn)行拼接，并使用注意力機(jī)制提取所述視覺向量和所述詞嵌入序列的隱含關(guān)系；使用所述視覺向量、所述詞嵌入序列和所述隱含關(guān)系，構(gòu)建知識(shí)三元組；將所述知識(shí)三元組與知識(shí)圖譜中積累的知識(shí)進(jìn)行實(shí)體匹配，得到匹配度最高的三元組，以該三元組的尾部實(shí)體作為最終答案輸出。本發(fā)明所述的開放域視覺語言問答方法，提供了一種知識(shí)三元組抽取和積累的方法，用以提升模型的泛化能力，解決遺忘問題。

技術(shù)領(lǐng)域

本發(fā)明涉及視覺語言問答技術(shù)領(lǐng)域，特別是涉及一種開放域視覺語言問答方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。

背景技術(shù)

開放域問答系統(tǒng)(Question?Answering?System,QA)、是以大規(guī)模開放域?qū)υ捳Z料庫作為訓(xùn)練語料，利用深度學(xué)習(xí)算法學(xué)習(xí)問答模式的問答模型。通過對(duì)話交互的方式客觀的返回用戶想要獲得的信息，是信息檢索的高級(jí)形式。大規(guī)模開放域?qū)υ捳Z料庫中涵蓋的對(duì)話信息極為豐富，深度學(xué)習(xí)算法能夠很好的學(xué)習(xí)開放域語料庫中的開放對(duì)話知識(shí)提高回復(fù)用戶提問的準(zhǔn)確性，其應(yīng)用在生產(chǎn)生活中十分廣泛。開放域視覺問答的一個(gè)缺陷是從純文本模態(tài)的知識(shí)庫獲取相關(guān)知識(shí)，這些知識(shí)庫僅含有一階謂詞或詞語描述所表達(dá)的事實(shí)，而缺乏用于一階謂詞或語言描述所表達(dá)的事實(shí)，而缺乏用于視覺理解的復(fù)雜但不可或缺的多模態(tài)知識(shí)。語料庫也沒有根據(jù)場(chǎng)景、目的、個(gè)性化等特征信息做區(qū)分，導(dǎo)致問答系統(tǒng)有回復(fù)多樣性、話題控制、引入外部知識(shí)、個(gè)性化回復(fù)的多種不足，這就要求對(duì)話系統(tǒng)具有基礎(chǔ)的感認(rèn)能力，而且具有更進(jìn)一步多模態(tài)推理能力。

開放域視覺語言問答(Vision-Language?Question?and?Answering，VQA)是視覺語言交叉領(lǐng)域的重要研究任務(wù)之一，是實(shí)現(xiàn)面向用戶的交互式視覺系統(tǒng)的重要途經(jīng)。通過計(jì)算機(jī)視覺(Computer?Vision，CV)方法檢測(cè)圖像中蘊(yùn)含的包括物品、地點(diǎn)等在內(nèi)顯性信息和包括場(chǎng)景、表情等在內(nèi)的隱含信息，針對(duì)用戶提出的問題應(yīng)用自然語言處理(NaturalLanguage?Processing)有針對(duì)的給出一段自然語言作為答案。通常開放域視覺問答給出的問題不會(huì)包含在語料庫中，要求視覺語言問答模型根據(jù)輸入的問題和圖像進(jìn)行推理，根據(jù)兩者之間的聯(lián)系，泛化地回答問題。盡管視覺問答裝置經(jīng)過大規(guī)模開放域?qū)υ捳Z料庫作為訓(xùn)練語料的預(yù)訓(xùn)練后，但是在開放域視覺語言問答的推理能力極差，增強(qiáng)推理能力的方法往往是擴(kuò)大預(yù)訓(xùn)練數(shù)據(jù)集。盲目的增大預(yù)訓(xùn)練數(shù)據(jù)集反而會(huì)導(dǎo)致模型過擬合，導(dǎo)致遺忘，無法泛化到其他任務(wù)或者數(shù)據(jù)集。應(yīng)用知識(shí)圖譜增強(qiáng)開放域視覺問答系統(tǒng)，使其在開放域數(shù)據(jù)集上仍然保持具有良好的推理能力，防止遺忘現(xiàn)象發(fā)生增強(qiáng)其泛化能力。

綜上所述，開放域視覺問答研究有以下局限性：

在開放域視覺問答中，視覺語言模型能很好的檢測(cè)圖像中的目標(biāo)和目標(biāo)文本中的實(shí)體，但是不能很好的建模兩種模態(tài)之間的關(guān)系，而且建模的知識(shí)無法長(zhǎng)久記憶并進(jìn)行積累。

在開放域視覺問答中，問題往往是訓(xùn)練集之外的，要求模型具有一定的泛化性，當(dāng)增大數(shù)據(jù)集使其泛化性增強(qiáng)時(shí)，反而造成模型遺忘的現(xiàn)象。

發(fā)明內(nèi)容

基于此，本發(fā)明的目的在于，提供一種開放域視覺語言問答方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)，提供了一種知識(shí)三元組抽取和積累的方法，用以提升模型的泛化能力，解決遺忘問題。

第一方面，本發(fā)明提供一種開放域視覺語言問答方法，包括以下步驟：

對(duì)圖像進(jìn)行編碼，將所述圖像映射為一組視覺向量；

對(duì)問題進(jìn)行嵌入標(biāo)記，得到詞嵌入序列；

將所述視覺向量和所述詞嵌入序列進(jìn)行拼接，并使用注意力機(jī)制提取所述視覺向量和所述詞嵌入序列的隱含關(guān)系；

使用所述視覺向量、所述詞嵌入序列和所述隱含關(guān)系，構(gòu)建知識(shí)三元組；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南師范大學(xué)，未經(jīng)華南師范大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202310417662.8/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】