[發(fā)明專利]語音識別方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201910506115.0 | 申請日: | 2019-06-12 |
| 公開(公告)號: | CN110223678A | 公開(公告)日: | 2019-09-10 |
| 發(fā)明(設(shè)計)人: | 萬光輝 | 申請(專利權(quán))人: | 蘇州思必馳信息科技有限公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/06 |
| 代理公司: | 北京商專永信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11400 | 代理人: | 方挺;黃謙 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 標簽序列 后驗概率 語音識別 對話語音 語音文件 相似度 詞表 學習神經(jīng)網(wǎng)絡(luò) 語音識別系統(tǒng) 最大相似度 平滑處理 音頻特征 語音標簽 不等長 詞集合 遍歷 映射 發(fā)音 詞語 標簽 | ||
1.一種語音識別方法,包括:
將提取到的語音文件每一幀的音頻特征輸入至深度學習神經(jīng)網(wǎng)絡(luò)中,確定每一幀的后驗概率,通過對每一幀的后驗概率進行平滑處理,確定組成所述對話語音的關(guān)鍵詞;
檢測所述關(guān)鍵詞是否在預(yù)設(shè)易串詞表中,若是,則確定所述關(guān)鍵詞所在的串詞集合;
獲取所述語音文件中每幀的后驗概率最大值對應(yīng)的標簽組成的第一標簽序列,以及所述各待選詞發(fā)音映射確定的第二標簽序列,通過動態(tài)時間規(guī)整算法依次遍歷所述第一標簽序列與各待選詞對應(yīng)的第二標簽序列的相似度,將最大相似度對應(yīng)的待選詞作為所述對話語音的識別詞語,其中,所述各標簽序列間可以不等長。
2.根據(jù)權(quán)利要求1所述的方法,其中,在所述將提取到的語音文件每一幀的音頻特征輸入至深度學習神經(jīng)網(wǎng)絡(luò)中之前,所述方法還包括:
提取訓練數(shù)據(jù)每一幀的音頻特征,對所述每一幀的音頻特征進行標簽對齊操作,用作深度神經(jīng)網(wǎng)絡(luò)的訓練參數(shù);
對標簽對齊后的音頻特征,使用梯度下降算法迭代訓練所述深度神經(jīng)網(wǎng)絡(luò),以提高所述深度神經(jīng)網(wǎng)絡(luò)的大小。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述通過對每一幀的后驗概率進行平滑處理,確定組成所述對話語音的關(guān)鍵詞包括:
通過對每一幀的后驗概率進行平滑打分,確定所述對話語音識別結(jié)果的分值;
當所述識別結(jié)果的分值達到預(yù)設(shè)識別閾值時,將所述識別結(jié)果確定為組成所述對話語音的關(guān)鍵詞。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述檢測所述關(guān)鍵詞是否在預(yù)設(shè)易串詞表還包括:
當所述關(guān)鍵詞不在所述預(yù)設(shè)易串詞表中時,將所述關(guān)鍵詞作為所述語音的識別詞語。
5.一種語音識別系統(tǒng),包括:
關(guān)鍵詞確定程序模塊,用于將提取到的語音文件每一幀的音頻特征輸入至深度學習神經(jīng)網(wǎng)絡(luò)中,確定每一幀的后驗概率,通過對每一幀的后驗概率進行平滑處理,確定組成所述對話語音的關(guān)鍵詞;
易串詞檢測程序模塊,用于檢測所述關(guān)鍵詞是否在預(yù)設(shè)易串詞表中,若是,則確定所述關(guān)鍵詞所在的串詞集合;
識別程序模塊,用于獲取所述語音文件中每幀的后驗概率最大值對應(yīng)的標簽組成的第一標簽序列,以及所述各待選詞發(fā)音映射確定的第二標簽序列,通過動態(tài)時間規(guī)整算法依次遍歷所述第一標簽序列與各待選詞對應(yīng)的第二標簽序列的相似度,將最大相似度對應(yīng)的待選詞作為所述對話語音的識別詞語,其中,所述各標簽序列間可以不等長。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其中,在關(guān)鍵詞確定程序模塊之前,所述系統(tǒng)還包括:神經(jīng)網(wǎng)絡(luò)訓練程序模塊,用于
提取訓練數(shù)據(jù)每一幀的音頻特征,對所述每一幀的音頻特征進行標簽對齊操作,用作深度神經(jīng)網(wǎng)絡(luò)的訓練參數(shù);
對標簽對齊后的音頻特征,使用梯度下降算法迭代訓練所述深度神經(jīng)網(wǎng)絡(luò),以提高所述深度神經(jīng)網(wǎng)絡(luò)的大小。
7.根據(jù)權(quán)利要求5所述的系統(tǒng),其中,所述關(guān)鍵詞確定程序模塊還用于:
通過對每一幀的后驗概率進行平滑打分,確定所述對話語音識別結(jié)果的分值;
當所述識別結(jié)果的分值達到預(yù)設(shè)識別閾值時,將所述識別結(jié)果確定為組成所述對話語音的關(guān)鍵詞。
8.根據(jù)權(quán)利要求5所述的系統(tǒng),其中,所述易串詞檢測程序模塊還用于:
當所述關(guān)鍵詞不在所述預(yù)設(shè)易串詞表中時,將所述關(guān)鍵詞作為所述語音的識別詞語。
9.一種電子設(shè)備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行權(quán)利要求1-4中任一項所述方法的步驟。
10.一種存儲介質(zhì),其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-4中任一項所述方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州思必馳信息科技有限公司,未經(jīng)蘇州思必馳信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910506115.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:空間音頻信號濾波
- 下一篇:一種語音識別輸入裝置
- 用于分層空時碼系統(tǒng)的準最大后驗概率檢測方法及其系統(tǒng)
- 一種基于樸素貝葉斯算法面向離散型數(shù)據(jù)的衛(wèi)星故障診斷方法
- 一種交互部分軟信息的多小區(qū)MIMO系統(tǒng)上行信號檢測方法
- 一種語音識別方法及系統(tǒng)
- 實現(xiàn)低復(fù)雜度高功率效率的QAM軟判決系統(tǒng)及方法
- 一種聲調(diào)評估方法
- CC攻擊的檢測方法及裝置
- 一種用于目標識別的后驗概率調(diào)整方法及裝置
- 一種語音模型自適應(yīng)訓練方法、系統(tǒng)、裝置及存儲介質(zhì)
- 一種語音識別方法、裝置、設(shè)備及存儲介質(zhì)





