[發(fā)明專利]一種基于語法分析樹上注意力機(jī)制的深度學(xué)習(xí)視頻問答方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201810201163.4 | 申請日: | 2018-03-12 |
| 公開(公告)號: | CN108549658B | 公開(公告)日: | 2021-11-30 |
| 發(fā)明(設(shè)計(jì))人: | 薛弘揚(yáng);蔡登;趙洲 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/783 |
| 代理公司: | 杭州天勤知識(shí)產(chǎn)權(quán)代理有限公司 33224 | 代理人: | 馬士林 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語法分析 樹上 注意力 機(jī)制 深度 學(xué)習(xí) 視頻 問答 方法 系統(tǒng) | ||
1.一種基于語法分析樹上注意力機(jī)制的深度學(xué)習(xí)視頻問答方法,其特征在于,包括以下步驟:
步驟1,對輸入的視頻序列進(jìn)行采樣,得到一系列視頻幀,然后利用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)抽取每幀視頻的特征,并將特征保存;
步驟2,對輸入的自然語言問句,利用語法樹分析工具建立對應(yīng)的語法樹;
步驟3,根據(jù)語法樹的結(jié)構(gòu),確定深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu);具體步驟為:
步驟3-1,根據(jù)建立的語法樹,建立一個(gè)樹狀的深度神經(jīng)網(wǎng)絡(luò),并在根結(jié)點(diǎn)處增加一個(gè)用于分類的多層感知機(jī);
步驟3-2,利用預(yù)訓(xùn)練的詞性分類器判斷葉子結(jié)點(diǎn)上單詞的性質(zhì)是否為視覺性的,若是,則在該結(jié)點(diǎn)處增加注意力計(jì)算結(jié)構(gòu),若否,則不增加注意力計(jì)算結(jié)構(gòu);
步驟3-3,如果采用層次化的注意力機(jī)制,則繼續(xù)判斷中間結(jié)點(diǎn)性質(zhì),在判為視覺性的結(jié)點(diǎn)處增加注意力計(jì)算結(jié)構(gòu);如果不采用層次化的注意力機(jī)制,則只對葉子結(jié)點(diǎn)進(jìn)行判斷;
步驟4,對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行自底向上的計(jì)算得到最終的輸出結(jié)果;
步驟5,將建立的深度神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)集上進(jìn)行訓(xùn)練;
步驟6,利用訓(xùn)練好的模型,按步驟1至4輸入數(shù)據(jù)得到輸出結(jié)果,依據(jù)輸出結(jié)果在候選答案庫中選擇問題的答案作為輸出。
2.根據(jù)權(quán)利要求1所述的基于語法分析樹上注意力機(jī)制的深度學(xué)習(xí)視頻問答方法,其特征在于,步驟3-2中,所述注意力計(jì)算結(jié)構(gòu)公式為:
其中,hk為結(jié)點(diǎn)k的隱藏層特征,T為視頻的幀數(shù),pj為第j個(gè)視頻幀的注意力分布權(quán)值,vj為第j個(gè)視頻幀的特征,pj為p的第j個(gè)分量,p的計(jì)算公式如下:
p=softmax(WPhA)
其中,WP為權(quán)值,hA為注意力機(jī)制的隱藏層特征,hA的第j個(gè)分量計(jì)算如下:
hA,j=tanh(WQhk+Wvvj+bV)
其中,WQ,Wv,bV為權(quán)值,vj為第j個(gè)視頻幀的特征。
3.根據(jù)權(quán)利要求1所述的基于語法分析樹上注意力機(jī)制的深度學(xué)習(xí)視頻問答方法,其特征在于,步驟3-3中,所述判斷中間結(jié)點(diǎn)性質(zhì)的方法為:
如果其子結(jié)點(diǎn)為含有視覺性的結(jié)點(diǎn),則該結(jié)點(diǎn)也被標(biāo)為視覺性,否則該結(jié)點(diǎn)為非視覺性的。
4.根據(jù)權(quán)利要求1所述的基于語法分析樹上注意力機(jī)制的深度學(xué)習(xí)視頻問答方法,其特征在于,步驟4的具體步驟為:
步驟4-1,將葉子結(jié)點(diǎn)用預(yù)訓(xùn)練的詞向量模型進(jìn)行初始化;
步驟4-2,按照步驟3中確定的模型,沿著樹狀神經(jīng)網(wǎng)絡(luò)自底向上進(jìn)行計(jì)算,直至根結(jié)點(diǎn),最后得到多層感知機(jī)的輸出結(jié)果。
5.根據(jù)權(quán)利要求1所述的基于語法分析樹上注意力機(jī)制的深度學(xué)習(xí)視頻問答方法,其特征在于,步驟5的具體步驟為:
步驟5-1,對數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行預(yù)處理,確定單詞表,將不在單詞表中的單詞去除;
步驟5-2,每次隨機(jī)選擇數(shù)據(jù)集中的一個(gè)數(shù)據(jù)樣本,按照步驟1至4計(jì)算網(wǎng)絡(luò)的輸出,然后計(jì)算損失函數(shù);
步驟5-3,依據(jù)反向傳播計(jì)算梯度,更新深度神經(jīng)網(wǎng)絡(luò)的權(quán)值;
步驟5-4,重復(fù)步驟5-2至5-3,直到深度神經(jīng)網(wǎng)絡(luò)收斂。
6.一種基于語法分析樹上注意力機(jī)制的深度學(xué)習(xí)視頻問答系統(tǒng),其特征在于,包括:
視頻特征提取模塊,用于對輸入的視頻進(jìn)行采樣,并利用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)提取每幀視頻的特征,并且將特征存儲(chǔ)下來以便后續(xù)計(jì)算使用;
問句語法樹解析模塊,用于將輸入的自然語言問句轉(zhuǎn)化為對應(yīng)的語法分析樹,采用語法樹解析工具將一個(gè)自然語言語句轉(zhuǎn)化成一棵語法分析樹;
詞向量模塊,利用詞向量工具獲得葉子結(jié)點(diǎn)單詞的向量表示,作為葉子結(jié)點(diǎn)的輸入;
詞性分析模塊,用于分析一個(gè)單詞是否為視覺性的,以此來進(jìn)一步?jīng)Q定所要構(gòu)建的樹狀神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu);
注意力機(jī)制模塊,計(jì)算當(dāng)前的特征隱藏表示在各個(gè)視頻幀上的注意力分布權(quán)重,然后依據(jù)權(quán)重加權(quán)計(jì)算新的特征表示;
樹狀神經(jīng)網(wǎng)絡(luò)模塊,基于問句的語法樹解析結(jié)果和詞性分析結(jié)果構(gòu)造對應(yīng)的樹狀深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò);
損失函數(shù)計(jì)算模塊,根據(jù)訓(xùn)練時(shí)網(wǎng)絡(luò)的輸出結(jié)果和實(shí)際答案,計(jì)算損失函數(shù);
訓(xùn)練迭代模塊,依據(jù)損失函數(shù)和反向傳播計(jì)算規(guī)則,計(jì)算梯度,更新網(wǎng)絡(luò)的權(quán)值;
答案選擇模塊,依據(jù)樹狀網(wǎng)絡(luò)最后的分類結(jié)果,在答案庫中選擇對應(yīng)的答案作為輸入問題的答案;
其中,視頻特征提取模塊、問句語法樹解析模塊、詞向量模塊、詞性分析模塊、注意力機(jī)制模塊和樹狀神經(jīng)網(wǎng)絡(luò)模塊組成本系統(tǒng)的核心模塊;本系統(tǒng)包括在線訓(xùn)練階段與實(shí)際應(yīng)用階段,在線訓(xùn)練階段使用核心模塊、損失函數(shù)計(jì)算模塊與訓(xùn)練迭代模塊;實(shí)際應(yīng)用階段使用核心模塊與答案選擇模塊。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810201163.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于粒子濾波視覺注意力模型的運(yùn)動(dòng)目標(biāo)檢測方法
- 一種評測注意力狀態(tài)的方法及裝置
- 注意力測評方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評估系統(tǒng)及其方法
- 一種注意力檢測方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置





