[發明專利]一種方言語言的識別方法及虛擬現實教學方法和系統有效
| 申請號: | 201710708102.2 | 申請日: | 2017-08-17 |
| 公開(公告)號: | CN107452379B | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 劉志 | 申請(專利權)人: | 廣州騰猴科技有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/00;G10L17/26;G10L15/08;G10L15/10;G10L15/02;G10L25/03 |
| 代理公司: | 廣州海心聯合專利代理事務所(普通合伙) 44295 | 代理人: | 黃為;任琳 |
| 地址: | 510000 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 方言 語言 識別 方法 虛擬現實 教學方法 系統 | ||
1.一種方言語言的識別方法,其特征在于:包括以下處理步驟:
步驟1:將實時采集的語音數據傳遞至口音特征提取模塊,并且通過口音特征提取模塊對口音特征進行實時提??;
步驟2:口音特征分類模塊根據提取的口音特征識別被采集者的口音所在地域和被采集者的性別,并且對被采集者的口音進行分類標注;
步驟3:口音識別模塊根據被采集者的口音特征和所在區域及性別,從口音模型庫中選擇模型進行口音識別,將實時采集的語音數據轉化成標準普通話;
在步驟1中,口音特征提取模塊對口音特征進行實時提取包括以下處理步驟:
步驟201:對語音聲調特征的提取,
首先提高采集的語音數據的平滑度,其中提高語音平滑度的加重函數為:
H(z)=1-az-1
其中,H(z)表示加重函數,為預處理后輸出的數據值;z表示采集的語音數據,a為平滑系數,a的范圍是[0.91];
然后對提高了語音平滑度的語音數據進行用于提高抗干擾性強和抗衰減性的分幀處理,該分幀的函數為:
s-1(n)=w(n)×s(n)
其中,s(n)表示平滑后的語音數據,s-1(n)表示分幀后的語音數據,w(n)表示分幀函數,w(n)的定義如下:
其中,n表示對應語音幀的長度,N表示語音幀的總幀數;
步驟202:對語音能量值的提取,
將對分幀處理后的每幀數據的能量值進行提取,該提取函數為:
其中,E(i)表示每幀數據的能量值函數,i表示幀的序號,N表示語音幀的總幀數,表示每幀的數據值;
步驟203:對語音基頻的提取,
進行每一幀的能量值提取后,將每一幀數據的頻率映射到基頻上,該提取方法為:
F=2595lg(1+f/700)
其中,f表示語音的每一幀的頻率,F表示提取的基頻;
步驟204:對語音聲調特征、語音能量值、語音基頻的提取后,進行動靜結合的混合特征音素提取,該提取方法為:
其中,C表示語音數據的音素,定義如下:
M(n)=(1-a2)M(n-1)
其中,a=0.35,n表示對應語音幀的長度;
所述口音模型庫中選擇的模型進行口音識別,將實時采集的語音數據轉化成標準普通話的方法包括以下處理步驟,
步驟601:建立被采集者的口音特征集
(s(1),E(1),F(1),C(1)),…,(s(n),E(n),F(n),C(n)),
并計算各口音特征的權、閾值,即
其中,ωi為口音特征的權、閾值,N表示語音幀的總幀數;
步驟602:依次計算每個ωi的誤差和,即
步驟603:根據誤差和計算第t個語音段的權重值,即
步驟604:根據第t個語音段的權重值β(t)調整ωi;
即ωi+1=ωi(1-l)β(t),其中,l為設定的值;
步驟605:對ωi進行歸一化處理,輸出即輸出標準普通話。
2.根據權利要求1所述的一種方言語言的識別方法,其特征在于:在步驟2中,性別識別采用EM參數估計法來構建男女性別的高斯混合模型來識別,其過程為,首先對采集的語音數據進行基頻提取,再通過建立的與男女性別高斯混合模型分別計算出與男女性別高斯混合模型之間的后驗概率值(Sm,Sw),最后通過計算男性后驗概率值-女性后驗概率值Sm-Sw與0的大小,若結果大于0則為男,反之則為女。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州騰猴科技有限公司,未經廣州騰猴科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710708102.2/1.html,轉載請聲明來源鉆瓜專利網。





