[發明專利]一種視頻鏡頭語言識別方法有效
| 申請號: | 202110908072.6 | 申請日: | 2021-08-09 |
| 公開(公告)號: | CN113591761B | 公開(公告)日: | 2023-06-06 |
| 發明(設計)人: | 劉盾;沈余銀;宋升 | 申請(專利權)人: | 成都華棲云科技有限公司 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/764;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 成都立新致創知識產權代理事務所(特殊普通合伙) 51277 | 代理人: | 劉俊 |
| 地址: | 610000 四川省成都市中國(四川)自*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 鏡頭 語言 識別 方法 | ||
本發明涉及一種視頻鏡頭語言識別方法,涉及視頻拍攝鏡頭識別技術領域,所述識別方法包括:S1、準備模型訓練和測試數據:逐幀計算視頻序列的光流場得到相鄰兩幀的光流場序列,對每一幀光流場數據進行設置得到模型訓練和測試的輸入圖像,并對輸入圖像進行標簽標記;S2、構建深度學習神經網絡模型,并根據訓練數據及其對應的標簽訓練該模型,通過訓練好的模型預測輸入的測試數據,得到輸入的測試數據的拍攝動作類型。本發明的優點在于:使用了高效的光流算法和深度學習技術,使得視頻鏡頭的實時分析,識別得到8種拍攝動作進而幫助影視相關從業人員和學生更好更快的理解和掌握視頻創作技術,充分利用視頻拍攝技巧來表達創作意圖。
技術領域
本發明涉及視頻拍攝識別技術領域,尤其涉及一種視頻鏡頭語言識別方法。
背景技術
影視鏡頭語言是一種藝術語言,它直接訴諸觀眾的視聽感官,并且以直觀的、具體的和鮮明的形象傳達含義,具有強烈的藝術感染力;由攝像機的運動和不同鏡頭的剪輯所產生的蒙太奇不僅形成了銀幕形象的構成法則,并且給觀眾帶來了不同的全新感受。
視頻拍攝過程的拍攝動作主要包括推、拉、升、降、左右搖動、跟隨和靜止鏡頭等,對這些拍攝動作進行分析可以幫助影視相關從業人員和學生更好更快的理解和掌握視頻創作技術,充分利用視頻拍攝技巧來表達創作意圖,但是,目前并沒有關于對這些拍攝動作進行分析的技術方案。
發明內容
本發明的目的在于克服現有技術的缺點,提供了一種視頻鏡頭語言識別方法,能夠對拍攝過程中對拍攝動作進行分析識別,進而幫助影視相關從業人員和學生更好更快的理解和掌握視頻創作技術,充分利用視頻拍攝技巧來表達創作意圖。
本發明的目的通過以下技術方案來實現:一種視頻鏡頭語言識別方法,所述識別方法包括:
S1、準備模型訓練和測試數據:逐幀計算視頻序列的光流場得到相鄰兩幀的光流場序列,對每一幀光流場數據進行設置得到模型訓練和測試的輸入圖像,并對輸入圖像進行標簽標記;
S2、構建深度學習神經網絡模型,并根據訓練數據及其對應的標簽訓練該模型,通過訓練好的模型預測輸入的測試數據,得到輸入的測試數據的拍攝動作類型。
所述對每一幀光流場數據進行設置包括:
A1、將每一幀光流場數據的幅值和角度數據都映射到0到255范圍之間;
A2、與每一幀光流場數據對應,生成一幀高寬與輸入視頻高寬一樣的RGB圖像數據,并將A1中的光流場的幅值作為R分量的數據,將A1中的角度值作為G分量的數據,將B?分量數據全部設置為255;
A3、以上述圖像的中心為圓心坐標,以高寬中較小的值的一半為半徑畫圓,將該圖像圓內的像素的G分量全部設置為1;
A4、將上述圖像縮小為閾值大小,作為模型訓練和測試的輸入圖像。
所述對輸入圖像進行標簽標記包括:
將拍攝動作類型為推鏡頭的圖像標記為1、拉鏡頭的圖像標記為2、升鏡頭的圖像標記為?3、降鏡頭的圖像標記為4、左搖鏡頭的圖像標記為5、右搖鏡頭的圖像標記為6、跟隨鏡頭的圖像標記為7、靜止鏡頭的圖像標記為8;
將標記結果寫入文本文件,文件行數對于用于訓練的圖像個數,每一行記錄本行對應的訓練圖像的路徑以及該訓練圖像所屬的鏡頭類型。
所述構建深度學習神經網絡模型包括:
輸入層為卷積層Conv2D,包含32個卷積核,卷積核大小為3*3*3,輸入大小為64*64*3,輸出大小為64*64*32;
在輸入層后面跟一個激活層,激活函數為relu函數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都華棲云科技有限公司,未經成都華棲云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110908072.6/2.html,轉載請聲明來源鉆瓜專利網。





