[發明專利]結合生理模型和數據驅動模型的三維發音器官動畫方法有效
| 申請號: | 201310150819.1 | 申請日: | 2013-04-26 |
| 公開(公告)號: | CN103218841A | 公開(公告)日: | 2013-07-24 |
| 發明(設計)人: | 於俊;李賢;江辰;汪增福 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06T13/20 | 分類號: | G06T13/20 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 楊學明;顧煒 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結合 生理 模型 數據 驅動 三維 發音器官 動畫 方法 | ||
1.一種結合生理模型和數據驅動模型的三維發音器官動畫方法,其特征在于,該方法基于核磁共振成像(MRI)得到的精細舌頭三維幾何模型,根據發音器官運動特性和聲學特性的相關性,結合真實捕捉的運動數據和發音器官的生理運動機理,并采用多流隱馬爾可夫模型建立的發音器官運動模型,該發音器官運動模型,其表現的動畫與發音過程協調一致的同時,能夠充分描述連續語音中的可視化協同發音現象,并且建立了發音器官之間的碰撞擠壓模型,該碰撞擠壓模型,其通過檢測舌頭的節點是否穿過口腔壁或牙齒來判斷是否發生碰撞,并根據節點滲入的深度來計算回縮力,進而計算出擠壓程度,從而高真實感地模擬了發音器官的運動特性;首先采集豐富的包含各種協同發音現象的語料庫,并且同步地利用EMA傳感器記錄下三維發音器官上特征點的運動軌跡,接著通過訓練上述數據集來建立能夠描述連續語音中發音器官動態變化特性的、與發音過程協調一致的隱馬爾可夫模型(Hidden?Markov?Model:HMM),然后據此HMM能夠根據輸入語音信息來預測當前發音器官上特征點的運動,最后結合發音器官的生理結構和運動機理以及它們之間的碰撞擠壓建模來完成發音器官的整體動畫合成。
2.根據權利要求1所述的一種結合生理模型和數據驅動模型的三維發音器官動畫方法,其特征在于,具體的步驟如下:
步驟1、建立舌頭三維模型
首先根據核磁共振成像(MRI)技術采集得到的數據來得到一個精細化的舌頭三維模型,并將它的舌根通過舌骨與骨骼模型中的下頜骨連接在一起,接著根據它的解剖原理得到對應的網格狀結構,該結構在左右方向上采用五層網格;在上下方向上采用十一層網格組成,每一層的寬度幾乎相等,它們從下頜骨的連接處成扇狀散開至舌頭的表面;在前后方向上,采用七層網格,從而舌頭總共由240個六面體組成;
步驟2、數據采集與處理
為了有效地描述語言的發音特性和建模它的協同發音現象,所采集的數據集包括發音、對應的三維發音器官運動和音素級的時間同步信息,它的內容包括兩個部分,第一部分對應的是以國際音標(International?Phonetic?Alphabet:IPA)形式表示的音素以及包含各個音素的單詞;第二個部分對應的是包含各種協同發音現象的語句;
具體過程是,訓練者在朗讀數據集中發音語料的時候,利用錄音設備錄入音頻,與此同時同步地利用EMA記錄下三維發音器官的運動軌跡,并且利用語音識別工具或人工標注得到音素級的時間同步信息。在錄制發音器官運動數據時,將10個傳感器貼在頭部某些位置來記錄頭部和發音器官的運動,其中,兩側耳后和鼻梁這三個參考點記為H1、H2和H3,其記錄發音時頭的旋轉和平移運動;T1、T2和T3記錄舌面上從舌尖到舌背上三個位置的運動;L1、L2、L3和L4分別記錄左嘴角、上唇、下唇和右嘴角的運動,其中,T1、T2、T3和L1、L2、L3、L4記錄得到的運動是頭部運動和發音器官運動兩者之和,以H1、H2和H3為依據,經過適當的旋轉和平移可以得到T1、T2、T3和L1、L2、L3、L4在發音過程中的運動軌跡;
步驟3、基于HMM的發音器官運動合成
步驟3.1文本輸入
過程包括3個階段:特征提取階段、訓練階段和合成階段;
在特征提取階段,將發音過程中T1、T2、T3和L1、L2、L3、L4在t時刻的值與開始時刻的值的相對值yt,以及yt在時域上的一階和二階差分作為t時刻的觀測運動參數Yt,即Δyt=0.5·(yt+1-yt-1),Δ2yt=yt+1-2·yt+yt-1;
在訓練階段,以音素為建模單位,采用上下文相關的三音素模型,每個模型為從左到右拓撲結構的5狀態HMM模型,且觀測模型為混合高斯模型,采用基于最大似然準則的期望最大化算法(Expectation?Maximization:?EM)來訓練得到這些三音素模型,為了解決數據稀疏問題,在訓練好三音素模型后,進一步根據前后音素對模型的每個狀態基于最小描述長度準則(MDL)進行決策樹聚類;
在合成階段,首先根據輸入的文本,采用文本分析工具來得到發音的音素序列和各個音素的時長,然后根據音素序列和時長、訓練得到的HMM模型和基于最大似然準則的HMM參數生成算法來合成發音器官的運動:
其中,是對y的估計值,argmax表示尋找具有最大評分的參量,P(·)為概率密度函數,λ代表HMM模型,是觀測運動參數序列,q是狀態,Wy是計算Δyt和Δ2yt等動態參數中產生的矩陣,即Y=Wy·y,
為了求解上述公式,先要對最優狀態序列做一個近似估計:
q*=argmaxqP(q/λ)
在求得最優狀態序列后,可得到最終的解為:
其中,
步驟3.2語音輸入
在特征提取階段,除了提取yt外,還提取t時刻的聲學特征xt以及xt在時域上的一階和二階差分作為t時刻的觀測聲學參數Xt,即Δxt=0.5·(xt+1-xt-1),Δ2xt=xt+1-2·xt+xt-1;
在訓練階段,首先采用多流(Multi-Stream)HMM將觀測運動參數和觀測聲學參數作為相互獨立的流聯合進行建模,單個建模的過程同上一節所述;接著建立運動參數與聲學參數的相關性:
其中是狀態轉移概率,是觀測概率,建立了狀態qt處運動參數和聲學參數的相關性,且初值為零矩陣;
然后在上述相互獨立情況下建立的多流HMM基礎上根據文獻對上式中的參數進行迭代調整,從而得到建模相關性后的HMM模型;
在合成階段,由下式來合成發音器官的運動:
其中,λ為建模相關性后運動參數和聲學參數聯合訓練得到的HMM模型,是觀測聲學參數序列,而最優狀態序列q*是由單獨訓練聲學特征得到的聲學模型λac根據語音識別工具得到的文本和聲學參數進行Viterbi對齊得到的:
q*=argmaxqP(q/λac,X)
步驟4、三維發音器官動畫
因為在上節合成的只是舌頭和嘴唇上傳感器(T1、T2、T3和L1、L2、L3、L4)所在位置的運動軌跡,這對于舌頭和嘴唇的整體運動來說是稀疏的,所以為了進行高真實感的發音器官動畫合成,應該以上述稀疏運動軌跡為基礎,進行舌頭和嘴唇的整體動畫合成;具體如下:
步驟4.1舌頭動畫
舌頭動畫的過程是:在得到T1、T2、T3的運動軌跡后,將舌頭模型的對應點的坐標值設置成T1、T2、T3的值,并類似于插值算法中的做法,以控制點的坐標值為參考值,以舌頭運動控制模型作為插值函數來合成舌頭模型中的其他點;接著處理舌頭與口腔壁或牙齒的碰撞擠壓;然后舌頭模型做與人臉同樣的全局運動,從而完成舌頭的動畫;
步驟4.2嘴唇動畫
嘴唇動畫的過程是:在得到L1、L2、L3和L4的運動軌跡后,將嘴唇模型的對應點的坐標值設置成L1、L2、L3和L4的值,并類似于插值算法中的做法,以控制點的坐標值為參考值,以現有的肌肉模型作為插值函數來合成嘴唇模型中的其他點;然后嘴唇模型做與人臉同樣的全局運動,從而完成嘴唇的動畫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310150819.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:接針裝置
- 下一篇:基于核傳播的遙感圖像變化檢測方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





