[發(fā)明專利]一種基于圖片的問答方法、設(shè)備及計算機可讀存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202011632872.1 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112800191B | 公開(公告)日: | 2023-01-17 |
| 發(fā)明(設(shè)計)人: | 吳嘉嘉;殷兵;竺博;劉聰 | 申請(專利權(quán))人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市威世博知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44280 | 代理人: | 李申 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 圖片 問答 方法 設(shè)備 計算機 可讀 存儲 介質(zhì) | ||
本申請公開了一種基于圖片的問答方法、設(shè)備及計算機可讀存儲介質(zhì),該方法包括:獲取基礎(chǔ)圖片和問題;從答案池中提取匹配問題的答案,答案池是基于基礎(chǔ)圖片訓(xùn)練得到。通過上述方式,本申請能夠基于圖片構(gòu)建答案池,提高答案池中答案的豐富度及匹配問題的答案的精度。
技術(shù)領(lǐng)域
本申請涉及信息處理技術(shù)領(lǐng)域,特別是涉及一種基于圖片的問答方法、設(shè)備及計算機可讀存儲介質(zhì)。
背景技術(shù)
隨著信息處理技術(shù)的發(fā)展,智能問答技術(shù)受到越來越多的關(guān)注,智能問答系統(tǒng)可以以一問一答的形式自動回答用戶提出的問題。目前,智能問答系統(tǒng)主要是通過構(gòu)建一個“全量”的答案池,答案池一般是根據(jù)應(yīng)用場景來選定范圍的,例如在輔助學(xué)生學(xué)習(xí)的場景中,答案池則為教育場景中的高頻詞匯。然后,通過大量數(shù)據(jù)進行訓(xùn)練,根據(jù)用戶基于圖片所問的問題,從答案池中選出最接近的答案。
本申請的發(fā)明人在長期的研發(fā)過程中,發(fā)現(xiàn)構(gòu)建的“全量”的答案池有兩大問題。一是,為了答案更加豐富,需要構(gòu)建非常大的答案池,導(dǎo)致模型訓(xùn)練非常困難,并且需要非常大量的訓(xùn)練數(shù)據(jù);二是,一旦答案池選定,就只能從現(xiàn)有的答案池中選出答案,降低了答案的豐富程度。
發(fā)明內(nèi)容
本申請主要解決的技術(shù)問題是提供一種基于圖片的問答方法、設(shè)備及計算機可讀存儲介質(zhì),能夠基于圖片構(gòu)建答案池,提高了答案池中答案的豐富度及匹配問題的答案的精度。
為解決上述技術(shù)問題,本申請采用的一個技術(shù)方案是:提供一種基于圖片的問答方法,該方法包括:獲取基礎(chǔ)圖片和問題;從答案池中提取匹配問題的答案,答案池是基于基礎(chǔ)圖片訓(xùn)練得到。
其中,從答案池中提取匹配問題的答案包括:獲取基礎(chǔ)圖片中與問題相關(guān)的關(guān)聯(lián)特征;計算關(guān)聯(lián)特征與答案池中各答案樣本的相似度,得到組成答案的答案樣本。
其中,計算關(guān)聯(lián)特征與答案池中各答案樣本的相似度包括:將關(guān)聯(lián)特征輸入長短記憶神經(jīng)網(wǎng)絡(luò),得到關(guān)聯(lián)特征的特征向量;將各答案樣本輸入Bert網(wǎng)絡(luò),得到每個答案樣本的嵌入向量;分別計算關(guān)聯(lián)特征的特征向量與各個嵌入向量的相似度。
其中,計算關(guān)聯(lián)特征與答案池中各答案樣本的相似度,得到匹配問題的答案包括:將關(guān)聯(lián)特征輸入長短記憶神經(jīng)網(wǎng)絡(luò),得到第一答案樣本;將第一答案樣本和關(guān)聯(lián)特征輸入長短記憶神經(jīng)網(wǎng)絡(luò),得到第二答案樣本;將第二答案樣本作為第一答案樣本執(zhí)行將第一答案樣本和關(guān)聯(lián)特征輸入長短記憶神經(jīng)網(wǎng)絡(luò),得到第二答案樣本的步驟,直至得到組成答案的所有答案樣本。
其中,基于基礎(chǔ)圖片訓(xùn)練得到答案池包括:對基礎(chǔ)圖片進行文本檢測和物體檢測,得到基礎(chǔ)圖片中文本和物體的位置;分別獲取基礎(chǔ)圖片中文本和物體的語義特征;將基礎(chǔ)圖片中文本和物體的語義特征作為答案樣本,形成答案池。
其中,將基礎(chǔ)圖片中文本和物體的語義特征作為答案樣本,形成答案池包括:將基礎(chǔ)圖片中的文本內(nèi)容和基礎(chǔ)圖片中物體的名稱作為答案樣本,形成答案池。
其中,獲取基礎(chǔ)圖片中與問題相關(guān)的關(guān)聯(lián)特征包括:獲取基礎(chǔ)圖片的融合特征和問題的特征;利用自注意力交互模型對融合特征和問題的特征進行處理,獲取關(guān)聯(lián)特征。
其中,獲取基礎(chǔ)圖片的融合特征包括:對基礎(chǔ)圖片進行文本檢測和物體檢測,得到基礎(chǔ)圖片中文本和物體的位置;分別獲取文本和物體的視覺特征、語義特征和位置特征;將視覺特征、語義特征、位置特征進行融合,得到基礎(chǔ)圖片的融合特征。
其中,將視覺特征、語義特征、位置特征進行融合,得到基礎(chǔ)圖片的融合特征包括:將視覺特征、語義特征、位置特征進行拼接,得到文本和物體的特征表達;利用融合自注意力模型對文本和物體的特征表達進行處理,得到融合特征。
為解決上述技術(shù)問題,本申請采用的另一個技術(shù)方案是:提供一種基于圖片的問答設(shè)備,該設(shè)備包括處理器,處理器用于執(zhí)行指令以實現(xiàn)上述的基于圖片的問答方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大訊飛股份有限公司,未經(jīng)科大訊飛股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011632872.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





