[發(fā)明專利]一種語音輸入矯正處理方法、裝置、電子設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110014882.7 | 申請日: | 2021-01-06 |
| 公開(公告)號: | CN112786027B | 公開(公告)日: | 2022-02-22 |
| 發(fā)明(設(shè)計)人: | 胡志鵬;楊天格;卜佳俊 | 申請(專利權(quán))人: | 浙江大學(xué);網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/07 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 鐘揚飛 |
| 地址: | 310000 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 輸入 矯正 處理 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本申請?zhí)峁┮环N語音輸入矯正處理方法、裝置、電子設(shè)備及存儲介質(zhì),涉及語音識別技術(shù)領(lǐng)域。該方法包括:獲取用戶輸入的待識別語音;對第一待識別語音進行特征提取,得到待識別語音特征;采用用戶對應(yīng)的語音矯正模型,對待識別語音特征進行識別,得到待識別語音對應(yīng)的識別文本,語音矯正模型根據(jù)訓(xùn)練語音特征和指定文本進行模型訓(xùn)練得到,訓(xùn)練語音特征根據(jù)用戶朗讀指定文本的訓(xùn)練語音進行特征提取得到,指定文本為滿足預(yù)設(shè)音節(jié)組合條件的指定文本;獲取用戶輸入的針對識別文本的更新文本;根據(jù)更新文本,以及待識別語音特征,對語音矯正模型進行更新。本申請可減小對于發(fā)音不標(biāo)準(zhǔn)用戶基于語音識別技術(shù)的語音溝通障礙,提高用戶的使用體驗。
技術(shù)領(lǐng)域
本申請涉及語音識別技術(shù)領(lǐng)域,具體而言,涉及一種語音輸入矯正處理方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
隨著語音識別技術(shù)的發(fā)展,語音識別功能在越來越多的應(yīng)用場景中被使用。
目前的語音識別功能大多是采用語音識別模型實現(xiàn),而語音識別模型的訓(xùn)練是采用基于標(biāo)準(zhǔn)語音的訓(xùn)練庫進行訓(xùn)練。然而,在實際應(yīng)用場景,用戶的語言生長環(huán)境或者身體生理原因等多方面原因,都可能導(dǎo)致用戶的發(fā)音可能不是很標(biāo)準(zhǔn)。
對于這一部分發(fā)音不標(biāo)準(zhǔn)的用戶,采用通用的語音識別可能存在識別無效如識別不準(zhǔn)確、甚至無法識別等問題,使得這一部分用戶使用語音識別技術(shù)的語音溝通存在很大的阻礙,嚴(yán)重影響用戶的使用體驗。
發(fā)明內(nèi)容
本申請的目的在于,針對上述現(xiàn)有技術(shù)中的不足,提供一種語音輸入矯正處理方法、裝置、電子設(shè)備及存儲介質(zhì),以減小對于發(fā)音不標(biāo)準(zhǔn)用戶基于語音識別技術(shù)的語音溝通障礙,提高用戶的使用體驗。
為實現(xiàn)上述目的,本申請實施例采用的技術(shù)方案如下:
第一方面,本申請實施例提供了一種語音輸入矯正處理方法,包括:
獲取用戶輸入的第一待識別語音;
對所述第一待識別語音進行特征提取,得到第一待識別語音特征;
采用所述用戶對應(yīng)的語音矯正模型,對所述第一待識別語音特征進行識別,得到所述第一待識別語音對應(yīng)的第一識別文本,其中,所述用戶對應(yīng)的所述語音矯正模型根據(jù)訓(xùn)練語音特征和第一指定文本進行模型訓(xùn)練得到,所述訓(xùn)練語音特征根據(jù)訓(xùn)練語音進行特征提取得到,所述訓(xùn)練語音為獲取的所述用戶朗讀第一指定文本的訓(xùn)練語音,所述第一指定文本為滿足預(yù)設(shè)音節(jié)組合條件的指定文本;
獲取所述用戶輸入的針對所述第一識別文本的更新文本;
根據(jù)所述更新文本,以及所述第一待識別語音特征,對所述語音矯正模型進行更新。
可選的,所述方法還包括:
獲取所述用戶輸入的第二待識別語音;
對所述第二待識別語音進行特征提取,得到第二待識別語音特征;
采用更新后的所述語音矯正模型,對所述第二待識別語音特征進行識別,得到所述第二待識別語音對應(yīng)的第二識別文本。
可選的,所述采用所述用戶對應(yīng)的語音矯正模型,對所述第一待識別語音特征進行識別,得到所述第一待識別語音對應(yīng)的第一識別文本之前,所述方法還包括:
獲取針對所述用戶的評價語音以及所述評價語音對應(yīng)的文本;
對所述評價語音進行特征提取,得到所述用戶的評價語音特征;
根據(jù)所述評價語音特征和所述評價語音對應(yīng)的文本對所述用戶對應(yīng)的所述語音矯正模型進行矯正。
可選的,所述獲取針對所述用戶的評價語音以及所述評價語音對應(yīng)的文本,包括:
獲取所述用戶朗讀第二指定文本的語音,其中,所述第二指定文本和所述第一指定文本為不同的指定文本;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué);網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司,未經(jīng)浙江大學(xué);網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110014882.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





