[發(fā)明專利]利用知識庫漸進(jìn)時(shí)空注意力網(wǎng)絡(luò)解決視頻問答任務(wù)的方法有效
| 申請?zhí)枺?/td> | 201910080580.2 | 申請日: | 2019-01-28 |
| 公開(公告)號: | CN109829049B | 公開(公告)日: | 2021-06-01 |
| 發(fā)明(設(shè)計(jì))人: | 趙洲;朱超凡 | 申請(專利權(quán))人: | 杭州一知智能科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/783;G06F16/73;G06K9/00;G06N3/04 |
| 代理公司: | 無錫市匯誠永信專利代理事務(wù)所(普通合伙) 32260 | 代理人: | 王闖 |
| 地址: | 310052 浙江省杭州市蕭山*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 利用 知識庫 漸進(jìn) 時(shí)空 注意力 網(wǎng)絡(luò) 解決 視頻 問答 任務(wù) 方法 | ||
本發(fā)明公開了一種利用知識庫漸進(jìn)時(shí)空注意力網(wǎng)絡(luò)解決視頻問答任務(wù)的方法,主要包括如下步驟:1)針對于所給視頻、問題,獲取問題第n個(gè)單詞的隱層狀態(tài)輸出、結(jié)合了知識庫信息的問題隱層狀態(tài)輸出、含有時(shí)空注意力信息的視頻編碼。2)利用得到的問題第n個(gè)單詞的隱層狀態(tài)輸出、結(jié)合了知識庫信息的問題隱層狀態(tài)輸出、含有時(shí)空注意力信息的視頻編碼,獲取視頻問答的答案。相比于一般的視頻問答解決方案,本發(fā)明利用了知識庫漸進(jìn)時(shí)空注意力網(wǎng)絡(luò),能夠更好地利用問題相關(guān)視頻幀與問題相關(guān)視頻畫面區(qū)域。本發(fā)明在視頻問答任務(wù)中所取得的效果相比于傳統(tǒng)的方法更好。
技術(shù)領(lǐng)域
本發(fā)明涉及視頻問答任務(wù),尤其涉及一種利用知識庫漸進(jìn)時(shí)空注意力網(wǎng)絡(luò)解決視頻問答任務(wù)的方法。
背景技術(shù)
視頻問答任務(wù)是一項(xiàng)十分有挑戰(zhàn)性的任務(wù),目前吸引了很多人的關(guān)注。在該任務(wù)中需要問答系統(tǒng)可以針對于某個(gè)特定視頻的問題,回答用戶的提問。目前視頻問答任務(wù)仍然是一個(gè)較為新穎的任務(wù),對其的研究還不像對圖像問答任務(wù)那樣成熟。對于圖像問答任務(wù),一般采用的方法為,將文本內(nèi)容與圖像內(nèi)容均映射到同一個(gè)空間中,之后利用文本與圖像內(nèi)容的聯(lián)合表達(dá)預(yù)測所給問題的正確答案。
然而視頻是一個(gè)具有特定時(shí)序信息的靜態(tài)圖像集合,所以視頻中隱藏的上下文信息與時(shí)間動態(tài)信息十分重要,不可以被忽略。此外,在視頻中,還有許多視頻幀是與所問問題無關(guān)的,需要在進(jìn)行視頻問答時(shí)給予較低的權(quán)重。
此外,在視頻問答任務(wù)的視頻處理時(shí),與問題相關(guān)的視頻畫面區(qū)域往往只占整個(gè)視頻畫面區(qū)域的一小部分,需要找到問題所關(guān)注的視頻畫面區(qū)域。同時(shí),為了提高視頻問答的準(zhǔn)確性,需要引入相關(guān)知識信息。為了解決上述問題,本發(fā)明使用知識庫漸進(jìn)時(shí)空注意力網(wǎng)絡(luò)來解決視頻問答任務(wù),提高視頻問答任務(wù)形成回答語句的準(zhǔn)確性。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決現(xiàn)有技術(shù)中的問題,為了克服現(xiàn)有技術(shù)對于視頻問答無法提供較為準(zhǔn)確的回答的問題,本發(fā)明提供一種利用知識庫漸進(jìn)時(shí)空注意力網(wǎng)絡(luò)解決視頻問答任務(wù)的方法。本發(fā)明所采用的具體技術(shù)方案是:
利用知識庫漸進(jìn)時(shí)空注意力網(wǎng)絡(luò)解決視頻問答任務(wù)的方法,包含如下步驟:
1.設(shè)計(jì)一種問題方面的知識庫注意力機(jī)制對視頻問答任務(wù)中用戶輸入的問題進(jìn)行編碼,獲取結(jié)合了知識庫信息的問題隱層狀態(tài)輸出和問題每個(gè)單詞的隱層狀態(tài)輸出。
2.利用步驟1中獲取的結(jié)合了知識庫信息的問題隱層狀態(tài)輸出,設(shè)計(jì)一種時(shí)空注意力單元對于視頻問答任務(wù)中的視頻進(jìn)行編碼,獲取含有時(shí)空注意力信息的各個(gè)時(shí)刻視頻編碼。
3.利用步驟2獲得的含有時(shí)空注意力信息的各個(gè)時(shí)刻視頻編碼,獲取對應(yīng)的含有時(shí)空注意力信息的視頻幀第n次隱層狀態(tài)輸出;利用步驟1中獲取的結(jié)合了知識庫信息的問題隱層狀態(tài)輸出、問題每個(gè)單詞的隱層狀態(tài)輸出與獲取的含有時(shí)空注意力信息的視頻幀第n次循環(huán)隱層狀態(tài)輸出,設(shè)計(jì)一種答案生成器,利用該答案生成器獲得視頻問答任務(wù)的答案。
上述步驟可具體采用如下實(shí)現(xiàn)方式:
對于視頻問答任務(wù)中用戶輸入的問題,將問題中的各個(gè)單詞利用單詞映射的方式,獲得問題中各個(gè)單詞的映射向量q=(q1,q2,...,qn),其中qt代表問題中的第t個(gè)單詞的映射向量,n代表問題中的單詞個(gè)數(shù)。將問題中各個(gè)單詞的映射向量q=(q1,q2,...,qn)依次輸入到問題的長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)單元LSTMq中,獲取問題中每個(gè)單詞對應(yīng)的問題的長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)單元LSTMq的隱層狀態(tài)輸出其中代表問題中的第t個(gè)單詞輸入到問題的長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)單元LSTMq中,獲取的對應(yīng)的隱層狀態(tài)輸出。n代表問題中的單詞個(gè)數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州一知智能科技有限公司,未經(jīng)杭州一知智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910080580.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 漸進(jìn)屈光力眼鏡鏡片及其設(shè)計(jì)方法
- 升降機(jī)漸進(jìn)式防墜安全器
- 漸進(jìn)多焦點(diǎn)鏡片和漸進(jìn)多焦點(diǎn)鏡片組及視功能訓(xùn)練變焦裝置
- 漸進(jìn)式徑向凸輪插秧機(jī)深淺調(diào)節(jié)機(jī)構(gòu)
- 漸進(jìn)多焦點(diǎn)鏡片及其鏡片組和視功能訓(xùn)練變焦裝置
- 汽車?yán)染W(wǎng)漸進(jìn)折疊壓裝包邊機(jī)及其折疊壓裝包邊工藝
- 一種基于漸進(jìn)式殘差網(wǎng)絡(luò)的紅外圖像去雨方法及裝置
- 漸進(jìn)式軸承外圈打磨拋光機(jī)構(gòu)
- 具有軸向光焦度-距離模擬器的漸進(jìn)式透鏡模擬器
- 一種玻璃漸進(jìn)色鏡片及其制備方法
- 一種時(shí)空地理大數(shù)據(jù)的檢索方法及系統(tǒng)
- 一種泛知識化時(shí)空對象表達(dá)數(shù)據(jù)庫建立方法
- 一種基于時(shí)空密度波與同步的大型時(shí)空數(shù)據(jù)聚類算法GRIDWAVE
- 時(shí)空數(shù)據(jù)的存儲方法、查詢方法及存儲裝置、查詢裝置
- 一種云環(huán)境下時(shí)空索引的構(gòu)建方法、裝置及電子設(shè)備
- 面向工業(yè)4.0的時(shí)空大數(shù)據(jù)分布式存儲檢索方法及系統(tǒng)
- 一種數(shù)據(jù)比對碰撞方法和裝置
- 時(shí)空數(shù)據(jù)的異常檢測方法、裝置、電子設(shè)備和存儲介質(zhì)
- 一種可直接捕獲時(shí)空相關(guān)性的時(shí)空數(shù)據(jù)預(yù)測方法
- 多維時(shí)空譜數(shù)據(jù)融合方法、裝置、電子設(shè)備和存儲介質(zhì)





