[發明專利]基于語音生成口型視頻的方法在審
| 申請號: | 201810285279.0 | 申請日: | 2018-04-03 |
| 公開(公告)號: | CN108550173A | 公開(公告)日: | 2018-09-18 |
| 發明(設計)人: | 李學龍;王琦;李欣 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06T11/00 | 分類號: | G06T11/00;G06K9/00;G06K9/62;G10L25/03;H04N7/14 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 常威威 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 口型 人臉圖像 視頻 靜態圖像 語音生成 視頻卡 靜止畫面 靜止圖像 口型變化 模型處理 視頻片段 視頻通話 視頻圖像 系數矩陣 相似變換 有效緩解 原始音頻 對齊 幀圖像 截取 人臉 替換 檢測 網絡 講話 學習 | ||
本發明提供了一種基于語音生成口型視頻的方法。首先,截取視頻卡頓時的靜止畫面,并檢測得到其中的人臉圖像,計算其MFCC系數矩陣;然后,利用訓練好的深度網絡Speech2Vid模型處理得到與口型對應的人臉圖像;最后,利用相似變換將人臉圖像對齊,并進行替換得到新的靜態圖像,將得到的新的靜態圖像作為視頻的下一幀。由于不依賴已有的講話視頻片段,直接通過學習原始音頻和視頻圖像中口型變化的關系,生成包含對應口型人臉的靜止圖像作為視頻的下一幀圖像,可以有效緩解視頻卡頓現象,提升人們視頻通話體驗。
技術領域
本發明屬計算機視覺、圖形處理技術領域,具體涉及一種基于語音生成口型視頻的方法。
背景技術
隨著視頻聊天逐漸替代了傳統的語音交流方式,人們在享受著面對面談話樂趣的同時,也催生出了一些新的問題。受限于不同地區的不同網絡環境,視頻聊天在網絡條件較差的情況下穩定性較差,這給用戶帶來了很不好的體驗。其中音頻文件較小,即使在較差的網絡環境下也可以獲得流暢的通訊體驗,而視頻信息卻由于文件相對較大會出現畫面卡頓的現象。為解決這個問題,可以通過分析講話者的音頻信息,生成與之相對應的口型,讓不連貫的畫面得到補償,盡可能地改善低網絡速率下的視頻聊天體驗。Fan等人在文獻“B.Fan,L.Wang,F.K.Soong and L.Xie,“Photo-real talking head with deepbidirectional LSTM”,ICASSP 2015,pp.4884-4888,2015”中介紹了一種通過雙向LSTM(Long short-term memory)重新連接人臉下半部分的方法,以重新復制來自不同音頻源的目標視頻。LSTM從保存的目標幀的字典中選擇一個目標口型區域,而不是生成圖像,因此需要數據量龐大的唯一目標身份的視頻幀,以從中進行選擇,這需要視頻聊天的設備擁有海量的存儲空間和強勁的性能,這在實際生活中是很難被滿足的。而且這種方法只是從已經存在圖像信息中進行篩選后補償畫面,如果遇到沒有可供挑選的圖像信息時顯得無能為力。Garrido等人在文獻“P.Garrido,L.Valgaerts,H.Sarmadi,et al.“VDub:ModifyingFace Video of Actors for Plausible Visual Alignment to a Dubbed Audio Track”,Computer Graphics Forum,pp.193-204,2015.”中改進了上述方法,將配音者視頻中的口形轉移到目標視頻,從而合成目標說話人的人臉,但是這種方法要求視頻當中的配音者說出語音片段,這樣就無法保證實時性,無法滿足視頻聊天的基本要求。
發明內容
為了克服現有技術的不足,本發明提供一種基于語音生成口型視頻的方法,即利用人的音頻和面部圖像來生成講話時的人臉視頻的方法。在視頻卡頓時使用音素生成與音頻同步的臉部圖像,不依賴已有的講話視頻片段,直接通過學習原始音頻和視頻圖像中口型變化的關系,利用語音音頻生成包含對應口型人臉的靜止圖像,作為視頻的下一幀圖像,從而緩解視頻卡頓現象,提升人們視頻通話體驗。
一種基于語音生成口型視頻的方法,其步驟如下:
步驟1:檢測當前視頻通話流暢度,若視頻發生卡頓,則截取當前視頻通話的靜止畫面,并提取前0.35秒至當前的音頻片段;
步驟2:使用由King提出的基于HOG的DLIB人臉檢測器對所截取的靜止畫面進行檢測,得到靜止畫面中的人臉圖像;以100Hz的采樣頻率對所提取的音頻片段進行采樣,得到35個離散的樣本,再分別計算其MFCC系數,得到MFCC系數矩陣,矩陣的每一列即為每個樣本的特征;
步驟3:對改進的深度網絡Speech2Vid模型進行訓練,然后,將步驟2得到的人臉圖像和MFCC系數矩陣輸入到訓練好的Speech2Vid模型中,得到與音頻對應口型的人臉圖像;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810285279.0/2.html,轉載請聲明來源鉆瓜專利網。





