[發明專利]基于深度神經網絡后驗概率算法的口語發音評測方法在審
| 申請號: | 201810179106.0 | 申請日: | 2018-03-05 |
| 公開(公告)號: | CN108364634A | 公開(公告)日: | 2018-08-03 |
| 發明(設計)人: | 徐祥榮 | 申請(專利權)人: | 蘇州聲通信息科技有限公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/16;G10L15/06;G10L25/51 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 邢若蘭;高之波 |
| 地址: | 215000 江蘇省蘇州市工業*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 音素 后驗概率算法 評測 口語發音 似然度 單詞 人工神經網絡 聲學模型 輸出單詞 音素識別 語音評測 輸入項 建模 時長 語音 概率 | ||
本發明公開了一種基于深度神經網絡后驗概率算法的口語發音評測方法。該方法包括以下步驟:從語音中選取一定數量的音頻,其中每個音頻的單詞數量均在一定的范圍內,計算各音頻中的每個單詞的音素的平均似然度、音素的平均EGOP和音素的平均時長概率;并將其作為輸入項輸入到神經網絡,并輸出單詞的分數。本發明中的基于深度神經網絡后驗概率算法的口語發音評測方法從聲學模型角度出發,利用LSTM建模提升音素識別率,還將FA的似然度和所有相近的音素似然度作對比,將GOP方法擴展為EGOP方法,并采用人工神經網絡打分模型進行打分,從而得到準確的語音評測結果。
技術領域
本發明涉及發音評測領域,特別涉及一種基于深度神經網絡后驗概率算法的口語發音評測方法。
背景技術
常用的語音評測技術,比如用于英語口語教學中的語音評測,一般都是采用智能打分技術對學習者的口語進行評測,而目前智能打分技術主要還是基于GOP(Goodness OfPronunciation)方法。GOP方法依賴于兩個過程,一個是強制對齊(Forced Alignment,簡稱FA),一個是自由音素(Free Phoneme,簡稱FP)解碼,其中FA就是基于聲學模型和參考文本(即需要學習者跟讀的文本)把每個單詞的時間邊界找到,同時得到每個單詞的似然度(Likelihood);而FP解碼是用同樣的音頻,但是其解碼的單位是音素級別,每個音素可以跟任何其他音素,在最理想的情況下,即聲學模型足夠好,音素識別率100%準確的情況下,對于那些讀的特別好的音頻,FP解碼出來的音素序列和參考文本擴展出來的音素序列幾乎一致,而對于那些讀的特別差的音頻,FP解碼出來的音素序列和參考文本擴展出來的音素序列幾乎完全不同。一般來說,可以將FA和FP解碼兩個過程最終得到的兩個似然度之間的差別作為發音好壞的指標,其中差別越小說明發音越好,反之說明發音越差。但是在通常情況下,聲學模型對音素的識別率是比較低的,因此FP解碼所得到的似然度的準確率也比較低,這樣就會導致評分的結果也不夠準確。
發明內容
為解決上述問題,本發明提供了一種基于深度神經網絡后驗概率算法的口語發音評測方法。
根據本發明的一個方面,提供了一種基于深度神經網絡后驗概率算法的口語發音評測方法,包括以下步驟:
a)從語音中選取一定數量的音頻,其中每個音頻的單詞數量均在一定的范圍內;
b)計算各音頻中的每個單詞的音素的平均似然度;
c)計算各音頻中的每個單詞的音素的平均EGOP;
d)計算各音頻中的每個單詞的音素的平均時長概率;
e)分別將各音頻中的每個單詞的音素的平均似然度、音素的平均EGOP和音素的平均時長概率作為輸入項輸入到一個人工神經網絡打分模型,并輸出單詞的分數。
本發明中的基于深度神經網絡后驗概率算法的口語發音評測方法從聲學模型角度出發,利用LSTM建模提升音素識別率,還將FA的似然度和所有相近的音素似然度作對比,將GOP方法擴展為EGOP方法,并采用人工神經網絡打分模型進行打分,從而得到準確的語音評測結果。
在一些實施方式中,選取音頻的數量不超過10000條,每個音頻的單詞數量范圍為1-20個。由此,能夠設置合適的的音頻數量和長度,為打分工作選取合適的樣本。
在一些實施方式中,音素的平均似然度的計算方法為:計算單詞中的各個音素的似然度,并取各個似然度的平均值為音素的平均似然度。由此,能夠計算出音素的平均似然度。
在一些實施方式中,音素的平均EGOP的計算方法為:計算單詞中的各個音素的似然度和FA似然度,將兩者的差設為音素的似然差,并取各個單詞的音素的似然差的總和為音素的平均EGOP。由此,能夠計算出音素的平均EGOP。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州聲通信息科技有限公司,未經蘇州聲通信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810179106.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文字轉語音系統以及文字轉語音方法
- 下一篇:一種語音識別的方法和裝置





