[發(fā)明專利]基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法在審
| 申請?zhí)枺?/td> | 201810179106.0 | 申請日: | 2018-03-05 |
| 公開(公告)號: | CN108364634A | 公開(公告)日: | 2018-08-03 |
| 發(fā)明(設(shè)計)人: | 徐祥榮 | 申請(專利權(quán))人: | 蘇州聲通信息科技有限公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/16;G10L15/06;G10L25/51 |
| 代理公司: | 北京商專永信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11400 | 代理人: | 邢若蘭;高之波 |
| 地址: | 215000 江蘇省蘇州市工業(yè)*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 神經(jīng)網(wǎng)絡(luò) 音素 后驗概率算法 評測 口語發(fā)音 似然度 單詞 人工神經(jīng)網(wǎng)絡(luò) 聲學模型 輸出單詞 音素識別 語音評測 輸入項 建模 時長 語音 概率 | ||
1.基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法,其特征在于:包括以下步驟
a)從語音中選取一定數(shù)量的音頻,其中每個音頻的單詞數(shù)量均在一定的范圍內(nèi);
b)計算各音頻中的每個單詞的音素的平均似然度;
c)計算各音頻中的每個單詞的音素的平均EGOP;
d)計算各音頻中的每個單詞的音素的平均時長概率;
e)分別將各音頻中的每個單詞的音素的平均似然度、音素的平均EGOP和音素的平均時長概率作為輸入項輸入到一個人工神經(jīng)網(wǎng)絡(luò)打分模型,并輸出單詞的分數(shù)。
2.根據(jù)權(quán)利要求1所述的基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法,其特征在于:選取音頻的數(shù)量不超過10000條。
3.根據(jù)權(quán)利要求2所述的基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法,其特征在于:每個音頻的單詞數(shù)量范圍為1-20個。
4.根據(jù)權(quán)利要求1所述的基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法,其特征在于:音素的平均似然度的計算方法為:計算單詞中的各個音素的似然度,并取各個似然度的平均值為音素的平均似然度。
5.根據(jù)權(quán)利要求1所述的基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法,其特征在于:音素的平均EGOP的計算方法為:計算單詞中的各個音素的似然度和FA似然度,將兩者的差設(shè)為音素的似然差,并取各個單詞的音素的似然差的總和為音素的平均EGOP。
6.根據(jù)權(quán)利要求1所述的基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法,其特征在于:音素的平均時長概率的計算方法為:計算單詞中的各個音素的均值和方差,使每個音素均得到一個概率分布,則取任意一個時長信息在各個音素下的概率的平均值為音素的平均時長概率。
7.根據(jù)權(quán)利要求6所述的基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法,其特征在于:該概率分布為高斯分布。
8.根據(jù)權(quán)利要求1所述的基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法,其特征在于:還包括以下步驟:
f)訓練多個人工神經(jīng)網(wǎng)絡(luò)打分模型,并分別對每條音頻進行打分。
9.根據(jù)權(quán)利要求8所述的基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法,其特征在于:打分的精確度到單詞,并取各人工神經(jīng)網(wǎng)絡(luò)打分模型的打分的平均分作為單詞的最終分數(shù)。
10.根據(jù)權(quán)利要求9所述的基于深度神經(jīng)網(wǎng)絡(luò)后驗概率算法的口語發(fā)音評測方法,其特征在于:還包括以下步驟:
g)根據(jù)音頻的各單詞的最終分數(shù)計算出音頻的分數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州聲通信息科技有限公司,未經(jīng)蘇州聲通信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810179106.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學習神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置
- 一種基于音素混淆網(wǎng)絡(luò)的音素后驗概率計算方法
- 一種基于樸素貝葉斯算法面向離散型數(shù)據(jù)的衛(wèi)星故障診斷方法
- 基于貝葉斯算法對圖像語義數(shù)據(jù)的概率潛在參數(shù)估計模型
- 基于粒子化和積算法的無線傳感器網(wǎng)絡(luò)目標跟蹤方法
- 多波束移動衛(wèi)星通信系統(tǒng)多用戶下行聯(lián)合預編碼方法
- 基于邊緣計算和貝葉斯后驗概率模型的室內(nèi)無線定位方法
- 一種在WLAN/藍牙異構(gòu)網(wǎng)絡(luò)環(huán)境中的移動設(shè)備定位方法
- 一種基于期望最大化算法的機動目標跟蹤方法
- 一種分層自適應(yīng)歸一化最小和譯碼算法
- 基于貝葉斯算法的鉆井溢流預警方法、系統(tǒng)及存儲介質(zhì)





