[發明專利]結合生理模型和數據驅動模型的三維發音器官動畫方法有效

申請號：	201310150819.1	申請日：	2013-04-26
公開（公告）號：	CN103218841A	公開（公告）日：	2013-07-24
發明（設計）人：	於俊;李賢;江辰;汪增福	申請（專利權）人：	中國科學技術大學
主分類號：	G06T13/20	分類號：	G06T13/20
代理公司：	北京科迪生專利代理有限責任公司 11251	代理人：	楊學明;顧煒
地址：	230026 安***	國省代碼：	安徽;34
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	結合生理模型數據驅動三維發音器官動畫方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及計算機圖形學、智能人機交互等技術領域，具體涉及到一種結合了生理模型和數據驅動模型的三維發音器官動畫方法，其是一種通過計算機技術虛擬出能反映真實生理特性和運動機理的三維發音器官，從而達到促進人機交互等目的的一種技術。

背景技術

隨著具有較高性價比的電磁發音數據采集技術(Electro-Magnetic?Articulography:EMA)的成熟，采集與語音同步的大量真實的三維發音器官運動數據成為可能。進而利用這些數據進行統計分析來得到在連續語音中發音器官的運動規律是很自然的想法。然而，由于傳感器的限制，統計分析方法所合成的發音器官運動是稀疏的。

另一方面，發音器官的生理結構和運動機理是建模發音器官運動的本質方法，且基于它們建立的運動方程可以產生的稠密的發音器官運動。特別的，在連續語音中不可避免地發生發音器官之間的碰撞擠壓等復雜運動，而對這些碰撞擠壓現象采用統計分析方法是難以完成的。

所以將發音器官的生理結構和運動機理應用到連續語音中，并作為統計分析方法的有益補充是應對上述問題的有效措施。這也是本發明研究的出發點。

發明內容

本發明的目的在于：提供一種結合了生理模型和數據驅動模型的三維發音器官動畫方法，其為基于發音器官的生理結構和運動機理，并結合與語音同步的大量真實的三維發音器官運動統計數據來構建三維虛擬發音器官動畫的方法。

本發明采用的技術方案為：一種結合生理模型和數據驅動模型的三維發音器官動畫方法，該方法基于核磁共振成像（MRI）得到的精細舌頭三維幾何模型，根據發音器官運動特性和聲學特性的相關性，結合真實捕捉的運動數據和發音器官的生理運動機理，并采用多流隱馬爾可夫模型建立的發音器官運動模型，該發音器官運動模型，其表現的動畫與發音過程協調一致的同時，能夠充分描述連續語音中的可視化協同發音現象，并且建立了發音器官之間的碰撞擠壓模型，該碰撞擠壓模型，其通過檢測舌頭的節點是否穿過口腔壁或牙齒來判斷是否發生碰撞，并根據節點滲入的深度來計算回縮力，進而計算出擠壓程度，從而高真實感地模擬了發音器官的運動特性；首先采集豐富的包含各種協同發音現象的語料庫，并且同步地利用EMA傳感器記錄下三維發音器官上特征點的運動軌跡，接著通過訓練上述數據集來建立能夠描述連續語音中發音器官動態變化特性的、與發音過程協調一致的隱馬爾可夫模型(Hidden?Markov?Model:HMM)，然后據此HMM能夠根據輸入語音信息來預測當前發音器官上特征點的運動，最后結合發音器官的生理結構和運動機理以及它們之間的碰撞擠壓建模來完成發音器官的整體動畫合成。

具體的步驟如下：

步驟1、建立舌頭三維模型

首先根據核磁共振成像(Magnetic?Resonance?Imaging:MRI)技術采集得到的數據來得到一個精細化的舌頭三維模型，并將它的舌根通過舌骨與骨骼模型中的下頜骨連接在一起，接著根據它的解剖原理得到對應的網格狀結構，該結構在左右方向上采用五層網格；在上下方向上采用十一層網格組成，每一層的寬度幾乎相等，它們從下頜骨的連接處成扇狀散開至舌頭的表面；在前后方向上，采用七層網格，從而舌頭總共由240個六面體組成；

步驟2、數據采集與處理

為了有效地描述語言的發音特性和建模它的協同發音現象，所采集的數據集包括發音、對應的三維發音器官運動和音素級的時間同步信息，它的內容包括兩個部分，第一部分對應的是以國際音標(International?Phonetic?Alphabet:IPA)形式表示的音素以及包含各個音素的單詞；第二個部分對應的是包含各種協同發音現象的語句；

具體過程是，訓練者在朗讀數據集中發音語料的時候，利用錄音設備錄入音頻，與此同時同步地利用EMA記錄下三維發音器官的運動軌跡，并且利用語音識別工具或人工標注得到音素級的時間同步信息。在錄制發音器官運動數據時，將10個傳感器貼在頭部某些位置來記錄頭部和發音器官的運動，其中，兩側耳后和鼻梁這三個參考點記為H1、H2和H3，其記錄發音時頭的旋轉和平移運動；T1、T2和T3記錄舌面上從舌尖到舌背上三個位置的運動；L1、L2、L3和L4分別記錄左嘴角、上唇、下唇和右嘴角的運動，其中，T1、T2、T3和L1、L2、L3、L4記錄得到的運動是頭部運動和發音器官運動兩者之和，以H1、H2和H3為依據，經過適當的旋轉和平移可以得到T1、T2、T3和L1、L2、L3、L4在發音過程中的運動軌跡；

步驟3、基于HMM的發音器官運動合成

步驟3.1文本輸入

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學，未經中國科學技術大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310150819.1/2.html，轉載請聲明來源鉆瓜專利網。