[發(fā)明專利]一種基于多級預測架構的視頻描述方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201910947833.1 | 申請日: | 2019-10-08 |
| 公開(公告)號: | CN110674783B | 公開(公告)日: | 2022-06-28 |
| 發(fā)明(設計)人: | 尹曉雅;李銳;于治樓 | 申請(專利權)人: | 山東浪潮科學研究院有限公司 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/774;G06V10/82;G06F40/289;G06N3/04 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 孫園園 |
| 地址: | 250100 山東省濟*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多級 預測 架構 視頻 描述 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于多級預測架構的視頻描述方法及系統(tǒng),屬于深度學習中計算機視覺以及自然語言處理領域,本發(fā)明要解決的技術問題為如何生成細粒度的語言描述,避免模型復雜度提高造成梯度消失,同時從根本上解決曝光偏差的難題,避免發(fā)生錯誤累計,造成最終結果的失效,采用的技術方案為:該方法步驟如下:S1、獲取原始數(shù)據(jù);S2、使用nltk對描述進行篩選分詞;S4、預訓練YOLO;S5、通過多層解碼器LSTM及堆疊注意力機制得到語言描述;S6、將得到的語言描述分別與真實標注計算交叉熵,同時將得到的語言描述的和作為總體損失。該系統(tǒng)包括原始數(shù)據(jù)獲取模塊、篩選分詞模塊、單詞表制作模塊、YOLO預訓練模塊、語言描述獲取模塊及梯度計算模塊。
技術領域
本發(fā)明涉及深度學習中計算機視覺以及自然語言處理領域,可用于多種視頻場景,如監(jiān)控視頻,社交視頻,娛樂視頻等,具體地說是一種基于多級預測架構的視頻描述方法及系統(tǒng)。
背景技術
近年來,伴隨著我國進入互聯(lián)網(wǎng)+時代,計算機和相關技術日益深度融入我們的生活、生產(chǎn)中,并成為重要生產(chǎn)力。得益于網(wǎng)絡滲透率的快速提高,我國網(wǎng)絡視頻用戶規(guī)模也居世界首位,截至2018年12月,網(wǎng)絡視頻用戶規(guī)模達6.12億,且規(guī)模還在高速增長。充斥網(wǎng)絡的視頻等媒體文件數(shù)量繁多,質量參差不齊,完全依靠人力理解這些數(shù)量龐大的視頻以及根據(jù)內容篩選出符合需求的視頻媒體文件已經(jīng)成為了一項不可能完成的任務。隨著計算機硬件技術的不斷創(chuàng)新與提高,計算機的計算能力得到了質的發(fā)展,并且計算機的高速計算能力已經(jīng)逐漸用于幫助人類解決一些繁雜的問題,因此視頻自然語言描述的自動生成已經(jīng)成為計算機視覺和自然語言處理研究的熱點。
視頻自然語言描述的自動生成仍然面臨許多挑戰(zhàn):由于視頻內容的復雜性和多樣性,視頻自然語言描述是一個頗具難度的任務;如何理解視頻內容與自然語言句子之間的關系,仍然是一個有待解決的問題。由于深度學習方法較好的性能和高速計算力,基于深度學習的方法越來越受到視頻內容理解領域的重視。基于編碼器-解碼器LSTM框架,自動生成視頻自然語言描述任務取得了一定的進展,采用基于卷積神經(jīng)網(wǎng)絡(CNN)的編碼器理解視頻內容,將視頻內容編碼成高級抽象向量,再利用基于循環(huán)神經(jīng)網(wǎng)絡(RNN)的解碼器LSTM講編碼得到的表示向量解碼成一系列的文字,按順序組成一句完整的句子,得到最終的語言描述。
基于編碼器-解碼器LSTM框架的視頻描述方法雖然取得了一定的成果,但是,生成的結果并不那么令人滿意;具體問題如下:
首先,模型很難生成豐富的細粒度描述。這是因為要生成細粒度的描述需要復雜性更高的模型,而考慮到反向傳播的梯度在經(jīng)過復雜網(wǎng)絡中多層傳播時強度會降低,因此高復雜度的模型在訓練過程中常常會出現(xiàn)梯度消失的問題,導致訓練失去控制,無法得到預想中的結果。
其次,在訓練階段和推論階段之間存在著曝光偏差問題,具體來說,在訓練階段,解碼器LSTM經(jīng)過訓練,能夠根據(jù)上一時刻的真實詞預測下一時刻的單詞,在推論階段,與訓練階段不同的是,描述句子的生成是通過貪婪搜索或波束搜索完成的,根據(jù)模型前一時刻生成的單詞來預測下一個單詞。由于在訓練時模型從未接收過它自己預測的單詞,這將導致在推論時一旦某一時刻發(fā)生了錯誤,之后的時刻錯誤將會積累。為了解決曝光偏差問題,schedule sampling已成為當前主流的基于RNN模型的訓練方法,即在訓練階段,在真實詞和模型生成詞之間根據(jù)概率進行隨機選擇作為下一時刻的輸入。然而,這只能減輕曝光偏差問題,但不能在很大程度上從根本上解決它。
綜上所述,經(jīng)典的視頻描述方法局限于無法生成細粒度的語言描述,一旦模型復雜度提高,很容易發(fā)生梯度消失問題;且在訓練階段和推論階段之間由于輸入不同,存在著曝光偏差問題,再應用推論階段由于曝光偏差問題很容易發(fā)生錯誤累計問題,造成最終結果的失效,現(xiàn)存方法只能減輕曝光偏差問題,但不能從根本上解決它。
故如何生成細粒度的語言描述,避免模型復雜度提高造成梯度消失,同時從根本上解決曝光偏差的難題,避免發(fā)生錯誤累計,造成最終結果的失效是目前現(xiàn)有技術中存在的技術問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東浪潮科學研究院有限公司,未經(jīng)山東浪潮科學研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910947833.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





