[發(fā)明專(zhuān)利]一種面向事件關(guān)系編碼的視頻中多事件自然語(yǔ)言描述方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810558731.6 | 申請(qǐng)日: | 2018-06-01 |
| 公開(kāi)(公告)號(hào): | CN108960063B | 公開(kāi)(公告)日: | 2021-07-02 |
| 發(fā)明(設(shè)計(jì))人: | 袁春;楊大力 | 申請(qǐng)(專(zhuān)利權(quán))人: | 清華大學(xué)深圳研究生院 |
| 主分類(lèi)號(hào): | G06K9/00 | 分類(lèi)號(hào): | G06K9/00;G06N3/04 |
| 代理公司: | 深圳新創(chuàng)友知識(shí)產(chǎn)權(quán)代理有限公司 44223 | 代理人: | 徐羅艷 |
| 地址: | 518055 廣東*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 事件 關(guān)系 編碼 視頻 多事 自然語(yǔ)言 描述 方法 | ||
本發(fā)明公開(kāi)了一種面向事件關(guān)系編碼的視頻中多事件自然語(yǔ)言描述算法,包括以下步驟:S1、采用一三維卷積神經(jīng)網(wǎng)絡(luò),對(duì)給定的視頻序列提取深度特征,得到若干個(gè)深度特征向量,構(gòu)成一深度特征序列;S2、基于所述深度特征序列,采用循環(huán)神經(jīng)網(wǎng)絡(luò)作為時(shí)序分析方法計(jì)算所述視頻序列中事件的提議起止區(qū)間;S3、選定所述視頻序列中需要進(jìn)行描述的待描述事件,并根據(jù)所述事件的提議起止區(qū)間,對(duì)所述待描述事件在所述深度特征序列中對(duì)應(yīng)的子序列進(jìn)行再編碼,得到所述待描述事件的描述子;S4、采用基于注意力模型的LSTM自適應(yīng)解碼器對(duì)所述描述子進(jìn)行解碼,得到用于描述所述待描述事件的自然語(yǔ)言。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言描述技術(shù)領(lǐng)域,尤其是涉及從視頻中檢測(cè)事件并用自然語(yǔ)言描述事件的算法。
背景技術(shù)
視覺(jué)自然語(yǔ)言描述(Captioning)是把視覺(jué)信息轉(zhuǎn)變?yōu)樽匀徽Z(yǔ)言的任務(wù)。通常該任務(wù)使用了編-解碼器架構(gòu)作為關(guān)鍵技術(shù)。作為這一過(guò)程的主要步驟,編碼器輸出的特征質(zhì)量與解碼器的生成模型對(duì)最終的自然語(yǔ)言結(jié)果有重要影響。視覺(jué)自然語(yǔ)言描述在視頻和圖像兩方面均有很多探索。通常地,現(xiàn)有技術(shù)流行使用基于神經(jīng)網(wǎng)絡(luò)的計(jì)算模型來(lái)解決架構(gòu)的實(shí)際建模。圖像上,卷積神經(jīng)網(wǎng)絡(luò)在眾多視覺(jué)理解任務(wù)中都有良好的效果,在圖像描述任務(wù)中的工作也都經(jīng)常使用該方法作為編碼器。在解碼器方面,則是根據(jù)已知的編碼結(jié)果生成詞匯序列的建模方法,常用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)均可被用在解碼器實(shí)現(xiàn)中。在視頻中,編碼器的類(lèi)型相對(duì)更多,常用的有采用三維卷積在空間和時(shí)間上提取特征,這一方法主要面向動(dòng)作類(lèi)型的特征;同樣地,單幀圖像的二維卷積特征也被用作編碼器。利用這兩種特征之一,輔以序列模型編碼時(shí)序信息,我們得以對(duì)眾多視頻中的視覺(jué)理解任務(wù)做出建模。其特征的后處理與圖像描述算法基本相同。目前較多的算法仍以基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型作為其具體實(shí)現(xiàn)。
這里的圖像/視頻描述任務(wù)數(shù)學(xué)上可以抽象為一個(gè)將詞匯表依概率的采樣問(wèn)題,正式建模為:
其中,yk為第k個(gè)輸出單詞,pθ表示一個(gè)參數(shù)化的概率分布,w表示詞匯表Ω中的單詞,wk表示已有的第k個(gè)輸出。模型在每一步應(yīng)當(dāng)輸出給定視覺(jué)信息與已有詞組下,概率最高的單詞。在建模的時(shí)候,主要考慮語(yǔ)言序列和視覺(jué)信息的聯(lián)合概率分布,所以通常情況下使用的方法論是通過(guò)交叉熵來(lái)使得模型逼近合理的概率分布。
給定該形式化的模型,目前主要的方法分別在編碼器和解碼器上做出不同改進(jìn)。在編碼器方面,除了用不同的主干神經(jīng)網(wǎng)絡(luò)試圖獲得更佳編碼效果以外,有的方法也顯式地使用了,視覺(jué)內(nèi)容的屬性——包括加入已標(biāo)注好或使用檢測(cè)算法標(biāo)注的物體信息等方法。在解碼階段,最主要的改進(jìn)方向是以特征加權(quán)形式出現(xiàn)的注意力模型,同時(shí)也有將問(wèn)題從優(yōu)化聯(lián)合概率分布轉(zhuǎn)變?yōu)樽员O(jiān)督的類(lèi)強(qiáng)化學(xué)習(xí)的方法用以直接提高語(yǔ)句的自然程度。但是在多事件視頻的描述任務(wù),已有的方法均有不同的缺點(diǎn)。最主要的問(wèn)題在于:1)對(duì)于多事件視頻的描述,這些方法都無(wú)法獲取事件之間的關(guān)系;2)對(duì)于長(zhǎng)短差別較大的視頻片段,用統(tǒng)一的編碼器-解碼器架構(gòu)的效果并不理想。這兩方面的缺點(diǎn)造成描述語(yǔ)言的準(zhǔn)確性和自然程度均下降。
以上背景技術(shù)內(nèi)容的公開(kāi)僅用于輔助理解本發(fā)明的發(fā)明構(gòu)思及技術(shù)方案,其并不必然屬于本專(zhuān)利申請(qǐng)的現(xiàn)有技術(shù),在沒(méi)有明確的證據(jù)表明上述內(nèi)容在本專(zhuān)利申請(qǐng)的申請(qǐng)日前已經(jīng)公開(kāi)的情況下,上述背景技術(shù)不應(yīng)當(dāng)用于評(píng)價(jià)本申請(qǐng)的新穎性和創(chuàng)造性。
發(fā)明內(nèi)容
針對(duì)傳統(tǒng)的視覺(jué)自然語(yǔ)言描述算法在多事件視頻的新任務(wù)中出現(xiàn)的問(wèn)題,本發(fā)明提出了一種面向事件關(guān)系編碼的視頻中多事件自然語(yǔ)言描述算法,通過(guò)合理的編碼方式獲得對(duì)事件內(nèi)部及互相關(guān)系的編碼特征,以提高描述語(yǔ)言的準(zhǔn)確性和自然程度。
本發(fā)明為達(dá)上述目的提出以下技術(shù)方案:
一種面向事件關(guān)系編碼的視頻中多事件自然語(yǔ)言描述算法,包括以下步驟:
S1、采用一三維卷積神經(jīng)網(wǎng)絡(luò),對(duì)給定的視頻序列提取深度特征,得到若干個(gè)深度特征向量,構(gòu)成一深度特征序列;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于清華大學(xué)深圳研究生院,未經(jīng)清華大學(xué)深圳研究生院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810558731.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種事件通訊裝置及方法
- 動(dòng)態(tài)權(quán)重事件處理系統(tǒng)和方法
- 攻擊檢測(cè)裝置和攻擊檢測(cè)方法
- 基于Unity的事件管理方法及系統(tǒng)
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 熱點(diǎn)事件確定方法及裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種樹(shù)狀模型中節(jié)點(diǎn)的連接方法及其模型、計(jì)算機(jī)裝置和可讀存儲(chǔ)介質(zhì)
- 一種事件處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 關(guān)系視圖
- 位置關(guān)系檢測(cè)裝置以及位置關(guān)系檢測(cè)系統(tǒng)
- 關(guān)系建模
- 關(guān)系分析方法、關(guān)系分析程序、以及關(guān)系分析裝置
- 實(shí)體關(guān)系分類(lèi)裝置和實(shí)體關(guān)系分類(lèi)方法
- 用戶(hù)關(guān)系抽取方法和用戶(hù)關(guān)系抽取系統(tǒng)
- 融合依存關(guān)系與篇章修辭關(guān)系的事件時(shí)序關(guān)系識(shí)別方法
- 開(kāi)關(guān)系統(tǒng)
- 視頻視覺(jué)關(guān)系檢測(cè)的關(guān)系片段連接方法
- 開(kāi)關(guān)系統(tǒng)
- 體征碼及其編碼方法
- 編碼裝置和編碼方法以及解碼裝置和解碼方法
- 聲音信號(hào)編碼方法、聲音信號(hào)解碼方法、編碼裝置、解碼裝置、聲音信號(hào)處理系統(tǒng)、聲音信號(hào)編碼程序以及聲音信號(hào)解碼程序
- 用于下一代視頻的編碼/未編碼的數(shù)據(jù)的內(nèi)容自適應(yīng)熵編碼
- 編碼光符號(hào)編碼
- 一種可變幀率的編碼方法及裝置
- 一種物聯(lián)網(wǎng)編碼方法及系統(tǒng)
- 點(diǎn)陣編碼及解碼方法
- 一種視頻編碼方法、裝置和存儲(chǔ)介質(zhì)
- 視頻編碼方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)





