[發明專利]基于語音生成口型視頻的方法在審
| 申請號: | 201810285279.0 | 申請日: | 2018-04-03 |
| 公開(公告)號: | CN108550173A | 公開(公告)日: | 2018-09-18 |
| 發明(設計)人: | 李學龍;王琦;李欣 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06T11/00 | 分類號: | G06T11/00;G06K9/00;G06K9/62;G10L25/03;H04N7/14 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 常威威 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 口型 人臉圖像 視頻 靜態圖像 語音生成 視頻卡 靜止畫面 靜止圖像 口型變化 模型處理 視頻片段 視頻通話 視頻圖像 系數矩陣 相似變換 有效緩解 原始音頻 對齊 幀圖像 截取 人臉 替換 檢測 網絡 講話 學習 | ||
1.一種基于語音生成口型視頻的方法,其步驟如下:
步驟1:檢測當前視頻通話流暢度,若視頻發生卡頓,則截取當前視頻通話的靜止畫面,并提取前0.35秒至當前的音頻片段;
步驟2:使用由King提出的基于HOG的DLIB人臉檢測器對所截取的靜止畫面進行檢測,得到靜止畫面中的人臉圖像;以100Hz的采樣頻率對所提取的音頻片段進行采樣,得到35個離散的樣本,再分別計算其MFCC系數,得到MFCC系數矩陣,矩陣的每一列即為每個樣本的特征;
步驟3:對改進的深度網絡Speech2Vid模型進行訓練,然后,將步驟2得到的人臉圖像和MFCC系數矩陣輸入到訓練好的Speech2Vid模型中,得到與音頻對應口型的人臉圖像;
所述的改進的Speech2Vid模型由生成模塊和去模糊模塊構成;生成模塊分別提取人臉圖像和MFCC系數矩陣的256維特征,再對其進行解碼生成對應口型的人臉圖像,共包括三個分支:第一個分支包含5個卷積層、2個池化層以及2個全連接層,其第一層卷積層Conv1-1、第二層卷積層Conv1-2、第二層池化層Pool1-2、第三層卷積層Conv1-3、第四層卷積層Conv1-4、第五層卷積層Conv1-5、第五層池化層Pool1-5、第六層全連接層FC1-6及第七層全連接層FC1-7順序相連,第一層卷積層Conv1-1包含64個3*3大小的卷積核,第二層卷積層Conv1-2包含128個3*3大小的卷積核,第二層池化層Pool1-2包含一個3*3大小的卷積核且卷積核移動步長為2,第三層卷積層Conv1-3包含256個3*3大小的卷積核,第四層卷積層Conv1-4包含256個3*3大小的卷積核,第五層卷積層Conv1-5包含512個3*3大小的卷積核,第五層池化層Pool1-5包含512個的卷積核且卷積核移動步長為2,第六層全連接層FC1-6包含512個卷積核,第七層全連接層FC1-7包含256個卷積核;第二分支包含5個卷積層、2個池化層以及2個全連接層,其第一層卷積層Conv2-1、第一層池化層Pool2-1、第二層卷積層Conv2-2、第二層池化層Pool2-2、第三層卷積層Conv2-3、第四層卷積層Conv2-4、第五層卷積層Conv2-5、第六層全連接層FC2-6及第七層全連接層FC2-7順序相連,第一層卷積層Conv2-1包含96個7*7大小的卷積核且卷積核移動步長為2,第一層池化層Pool2-1包含1個3*3大小的卷積核且卷積核移動步長為2,第二層卷積層Conv2-2包含256個5*5的卷積核且卷積核移動步長為2,第二層池化層Pool2-2包含一個3*3大小的卷積核且卷積核移動步長為2,第三層卷積層Conv2-3包含512個3*3大小的卷積核,第四層卷積層Conv2-4包含512個3*3大小的卷積核,第五層卷積層Conv2-5包含512個3*3大小的卷積核,第六層全連接層FC2-6包含512個卷積核,第七層全連接層FC2-7包含256個卷積核;第三分支包含6個卷積層以及1個全連接層,其第一層全連接層FC3-1、第二層卷積層Conv3-2、第三層卷積層Conv3-3、第四層卷積層Conv3-4、第五層卷積層Conv3-5、第六層卷積層Conv3-6及第七層卷積層Conv3-7順序相連,第一層全連接層FC3-1包含128個卷積核,第二層卷積層Conv3-2包含512個6*6大小的卷積核且卷積核移動步長為2,第三層卷積層Conv3-3包含256個5*5大小的卷積核且卷積核移動步長為2,第四層卷積層Conv3-4包含96個5*5大小的卷積核且卷積核移動步長為2,第五層卷積層Conv3-5包含96個5*5大小的卷積核且卷積核移動步長為2,第六層卷積層Conv3-6包含64個5*5大小的卷積核且卷積核移動步長為2,第七層卷積層Conv3-7包含3個5*5大小的卷積核;其中,生成模塊的第二分支的第二層卷積層Conv2-2的輸出結果輸入到其第三分支的第四層卷積層Conv3-4,第二分支的第一層池化層Pool2-1的輸出結果輸入到第三分支的第五層卷積層Conv3-5;
去模糊模塊對生成的人臉圖像進行銳化,共包括9個順序連接的卷積層,每個卷積層都包含64個3*3大小的卷積核;
步驟4:利用相似變換對步驟3得到的人臉圖像與步驟1得到的靜止畫面中人臉的眼睛和鼻子進行對齊,點對點替換步驟1得到靜止畫面中面部圖像像素,得到新的靜態圖像,將得到的新的靜態圖像作為視頻的下一幀,輸出到視頻通話中;
步驟5:判斷視頻是否結束,若視頻未結束,返回步驟1,否則,結束處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810285279.0/1.html,轉載請聲明來源鉆瓜專利網。





