[發(fā)明專利]開放域視覺語言問答方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202310417662.8 | 申請(qǐng)日: | 2023-04-18 |
| 公開(公告)號(hào): | CN116561272A | 公開(公告)日: | 2023-08-08 |
| 發(fā)明(設(shè)計(jì))人: | 冼廣銘;張文聰;柳寒 | 申請(qǐng)(專利權(quán))人: | 華南師范大學(xué) |
| 主分類號(hào): | G06F16/332 | 分類號(hào): | G06F16/332;G06F16/36;G06F16/58 |
| 代理公司: | 廣州駿思知識(shí)產(chǎn)權(quán)代理有限公司 44425 | 代理人: | 吳靜芝 |
| 地址: | 528225 廣東省佛山市*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 開放 視覺 語言 問答 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
本發(fā)明涉及一種開放域視覺語言問答方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。本發(fā)明所述的開放域視覺語言問答方法包括:對(duì)圖像進(jìn)行編碼,將所述圖像映射為一組視覺向量;對(duì)問題進(jìn)行嵌入標(biāo)記,得到詞嵌入序列;將所述視覺向量和所述詞嵌入序列進(jìn)行拼接,并使用注意力機(jī)制提取所述視覺向量和所述詞嵌入序列的隱含關(guān)系;使用所述視覺向量、所述詞嵌入序列和所述隱含關(guān)系,構(gòu)建知識(shí)三元組;將所述知識(shí)三元組與知識(shí)圖譜中積累的知識(shí)進(jìn)行實(shí)體匹配,得到匹配度最高的三元組,以該三元組的尾部實(shí)體作為最終答案輸出。本發(fā)明所述的開放域視覺語言問答方法,提供了一種知識(shí)三元組抽取和積累的方法,用以提升模型的泛化能力,解決遺忘問題。
技術(shù)領(lǐng)域
本發(fā)明涉及視覺語言問答技術(shù)領(lǐng)域,特別是涉及一種開放域視覺語言問答方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
開放域問答系統(tǒng)(Question?Answering?System,QA)、是以大規(guī)模開放域?qū)υ捳Z料庫作為訓(xùn)練語料,利用深度學(xué)習(xí)算法學(xué)習(xí)問答模式的問答模型。通過對(duì)話交互的方式客觀的返回用戶想要獲得的信息,是信息檢索的高級(jí)形式。大規(guī)模開放域?qū)υ捳Z料庫中涵蓋的對(duì)話信息極為豐富,深度學(xué)習(xí)算法能夠很好的學(xué)習(xí)開放域語料庫中的開放對(duì)話知識(shí)提高回復(fù)用戶提問的準(zhǔn)確性,其應(yīng)用在生產(chǎn)生活中十分廣泛。開放域視覺問答的一個(gè)缺陷是從純文本模態(tài)的知識(shí)庫獲取相關(guān)知識(shí),這些知識(shí)庫僅含有一階謂詞或詞語描述所表達(dá)的事實(shí),而缺乏用于一階謂詞或語言描述所表達(dá)的事實(shí),而缺乏用于視覺理解的復(fù)雜但不可或缺的多模態(tài)知識(shí)。語料庫也沒有根據(jù)場(chǎng)景、目的、個(gè)性化等特征信息做區(qū)分,導(dǎo)致問答系統(tǒng)有回復(fù)多樣性、話題控制、引入外部知識(shí)、個(gè)性化回復(fù)的多種不足,這就要求對(duì)話系統(tǒng)具有基礎(chǔ)的感認(rèn)能力,而且具有更進(jìn)一步多模態(tài)推理能力。
開放域視覺語言問答(Vision-Language?Question?and?Answering,VQA)是視覺語言交叉領(lǐng)域的重要研究任務(wù)之一,是實(shí)現(xiàn)面向用戶的交互式視覺系統(tǒng)的重要途經(jīng)。通過計(jì)算機(jī)視覺(Computer?Vision,CV)方法檢測(cè)圖像中蘊(yùn)含的包括物品、地點(diǎn)等在內(nèi)顯性信息和包括場(chǎng)景、表情等在內(nèi)的隱含信息,針對(duì)用戶提出的問題應(yīng)用自然語言處理(NaturalLanguage?Processing)有針對(duì)的給出一段自然語言作為答案。通常開放域視覺問答給出的問題不會(huì)包含在語料庫中,要求視覺語言問答模型根據(jù)輸入的問題和圖像進(jìn)行推理,根據(jù)兩者之間的聯(lián)系,泛化地回答問題。盡管視覺問答裝置經(jīng)過大規(guī)模開放域?qū)υ捳Z料庫作為訓(xùn)練語料的預(yù)訓(xùn)練后,但是在開放域視覺語言問答的推理能力極差,增強(qiáng)推理能力的方法往往是擴(kuò)大預(yù)訓(xùn)練數(shù)據(jù)集。盲目的增大預(yù)訓(xùn)練數(shù)據(jù)集反而會(huì)導(dǎo)致模型過擬合,導(dǎo)致遺忘,無法泛化到其他任務(wù)或者數(shù)據(jù)集。應(yīng)用知識(shí)圖譜增強(qiáng)開放域視覺問答系統(tǒng),使其在開放域數(shù)據(jù)集上仍然保持具有良好的推理能力,防止遺忘現(xiàn)象發(fā)生增強(qiáng)其泛化能力。
綜上所述,開放域視覺問答研究有以下局限性:
在開放域視覺問答中,視覺語言模型能很好的檢測(cè)圖像中的目標(biāo)和目標(biāo)文本中的實(shí)體,但是不能很好的建模兩種模態(tài)之間的關(guān)系,而且建模的知識(shí)無法長(zhǎng)久記憶并進(jìn)行積累。
在開放域視覺問答中,問題往往是訓(xùn)練集之外的,要求模型具有一定的泛化性,當(dāng)增大數(shù)據(jù)集使其泛化性增強(qiáng)時(shí),反而造成模型遺忘的現(xiàn)象。
發(fā)明內(nèi)容
基于此,本發(fā)明的目的在于,提供一種開放域視覺語言問答方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),提供了一種知識(shí)三元組抽取和積累的方法,用以提升模型的泛化能力,解決遺忘問題。
第一方面,本發(fā)明提供一種開放域視覺語言問答方法,包括以下步驟:
對(duì)圖像進(jìn)行編碼,將所述圖像映射為一組視覺向量;
對(duì)問題進(jìn)行嵌入標(biāo)記,得到詞嵌入序列;
將所述視覺向量和所述詞嵌入序列進(jìn)行拼接,并使用注意力機(jī)制提取所述視覺向量和所述詞嵌入序列的隱含關(guān)系;
使用所述視覺向量、所述詞嵌入序列和所述隱含關(guān)系,構(gòu)建知識(shí)三元組;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南師范大學(xué),未經(jīng)華南師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310417662.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 自動(dòng)檢測(cè)文件中搭配錯(cuò)誤的系統(tǒng)和方法
- 網(wǎng)絡(luò)連接裝置及網(wǎng)絡(luò)連接裝置的語言環(huán)境設(shè)定方法
- 一種口語評(píng)測(cè)方法及裝置
- 一種語言設(shè)置方法及移動(dòng)終端
- 一種語言文本加載方法和裝置
- 一種語言交流人工智能系統(tǒng)及其語言處理方法
- 語言序列標(biāo)注方法、裝置存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 一種基于語言包實(shí)現(xiàn)繼電保護(hù)裝置多語言版本方法及裝置
- 一種應(yīng)用軟件的多語言核對(duì)方法及系統(tǒng)
- 多語言字幕顯示方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 用于生成動(dòng)態(tài)幫助文檔的方法和系統(tǒng)
- 建立問答文本評(píng)價(jià)模型與評(píng)價(jià)問答文本的方法、裝置
- 基于學(xué)生問答方式的在線教育系統(tǒng)
- 一種問答輸入的智能提示方法、裝置和終端設(shè)備
- 一種通用的智能問答自動(dòng)化運(yùn)維系統(tǒng)及方法
- 自動(dòng)問答方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種基于知識(shí)圖譜的智能問答引擎及其實(shí)現(xiàn)方法
- 基于人工智能技術(shù)的類腦問答系統(tǒng)
- 一種基于語義分析技術(shù)的專業(yè)制度檔案問答機(jī)器人系統(tǒng)
- 一種視覺問答方法、系統(tǒng)及服務(wù)器





