[發明專利]一種視頻風格轉置方法和系統有效
| 申請號: | 202110335087.8 | 申請日: | 2021-03-29 |
| 公開(公告)號: | CN113095999B | 公開(公告)日: | 2023-08-25 |
| 發明(設計)人: | 馬哲;劉劍 | 申請(專利權)人: | 北京雷石天地電子技術有限公司 |
| 主分類號: | G06T3/00 | 分類號: | G06T3/00;G06N3/0464;G06N3/08;H04N21/44;H04N21/472 |
| 代理公司: | 北京城烽知識產權代理事務所(特殊普通合伙) 11829 | 代理人: | 王新月 |
| 地址: | 100101 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 風格 方法 系統 | ||
1.一種視頻風格轉置方法,其特征在于,所述方法包括:
獲取原視頻中的當前幀圖像、與所述當前幀圖像對應的當前預生成圖片、與所述當前幀圖像對應的當前風格圖片;
提取所述當前幀圖像的第一內容特征和所述當前預生成圖片的第二內容特征,并根據所述第一內容特征和所述第二內容特征計算出當前內容損失;
提取所述當前風格圖片的第一風格特征和所述當前預生成圖片的第二風格特征,并根據所述第一風格特征和所述第二風格特征計算出當前風格損失;
根據所述當前內容損失和所述當前風格損失,計算出所述當前預生成圖片的總損失,并將所述總損失進行梯度下降,得到最小化損失;
根據所述最小化損失,將對所述當前預生成圖片進行更新,得到所述當前幀的生成圖片;
根據原視頻的碼率和幀率將所有幀的生成圖片合成,以得到風格轉置視頻;其中,所述第一內容特征和所述第二內容特征通過以下方式計算所述當前內容損失:
其中,Jcontent(C,G1)為當前內容損失,C為當前幀圖像的第一內容特征,G1為當前預生成圖片的第二內容特征,a為當前特征矩陣,l1為第一特定神經網絡層;
所述第一風格特征S和所述第二風格特征G2通過以下方式計算當前第一風格損失:
其中,Jstyle(S,G2)為當前第一風格損失,S為當前風格圖片的第一風格特征,G2為當前預生成圖片的第二風格特征,l2為第二特定神經網絡層,為第一特征矩陣或第二特征矩陣的第一維度值,為第一特征矩陣或第二特征矩陣的第二維度值,為第一特征矩陣或第二特征矩陣的第三維度值;
所述計算所述當前第一風格損失后,包括:
將多個所述第二特定神經網絡層提取的多個所述第一風格特征和多個所述第二風格特征進行計算以得到一一對應的多個所述當前第一風格損失;
對多個所述當前第一風格損失求平均值以得到所述當前風格損失。
2.根據權利要求1所述的方法,其特征在于,所述提取所述當前幀圖像的第一內容特征和所述當前預生成圖片的第二內容特征包括:
將所述當前幀圖像轉換為與所述當前預生成圖片同等大小尺寸的當前第一圖片;
分別將所述當前第一圖片和所述當前預生成圖片輸入到VGG-19;
提取輸入到該第一特定神經網絡層中的所述當前第一圖片的內容特征,得到所述第一內容特征;以及,提取輸入到該第一特定神經網絡層中的所述當前預生成圖片的內容特征,得到所述第二內容特征。
3.根據權利要求1所述的方法,其特征在于,所述提取所述當前風格圖片的第一風格特征和所述當前預生成圖片的第二風格特征包括:
將所述當前風格圖片和所述當前預生成圖片輸入到VGG-19中第二特定神經網絡層;
提取輸入到該第二特定神經網絡層中的所述當前風格圖片的特征矩陣,得到第一特征矩陣;以及提取輸入到第二特定神經網絡層中所述當前預生成圖片的特征矩陣,得到第二特征矩陣;
將所述第一特征矩陣與所述第一特征矩陣轉置后的第一轉置矩陣相乘以得到所述第一風格特征S;以及將所述第二特征矩陣與所述第二特征矩陣轉置后的第二轉置矩陣相乘以得到所述第二風格特征G2。
4.根據權利要求1所述的方法,其特征在于,所述根據所述當前內容損失和所述當前風格損失,計算出所述當前預生成圖片的總損包括:
通過以下方式計算所述當前預生成圖片的總損失:
J(G)=αJcontent(C,G1)+βJstyle(S,G2)
其中,α為當前內容損失在總損失中的占比,β為當前風格損失在總損失中的占比,α+β=1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京雷石天地電子技術有限公司,未經北京雷石天地電子技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110335087.8/1.html,轉載請聲明來源鉆瓜專利網。





