[發(fā)明專利]一種電話機器人中帶口音的語音識別方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010623463.9 | 申請日: | 2020-07-02 |
| 公開(公告)號: | CN111508501B | 公開(公告)日: | 2020-09-29 |
| 發(fā)明(設計)人: | 張翀;江嶺 | 申請(專利權(quán))人: | 成都曉多科技有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/18;G10L15/16;G10L15/06;G10L15/02 |
| 代理公司: | 成都睿道專利代理事務所(普通合伙) 51217 | 代理人: | 薛波 |
| 地址: | 610000 四川省成都市天府新區(qū)華*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 電話 機器 人中 口音 語音 識別 方法 系統(tǒng) | ||
本申請?zhí)峁┮环N電話機器人中帶口音的語音識別方法及系統(tǒng),包括獲取語音輸入信號的高級聲學特征和口音特征;將所述高級聲學特征和所述口音特征進行拼接后送入深度神經(jīng)網(wǎng)絡的softmax層,輸出所述語音輸入信號的子因素序列;獲取會話理解系統(tǒng)的會話場景判斷結(jié)果,根據(jù)所述會話場景判定結(jié)果調(diào)用對應的WFST解碼圖對所述子因素序列進行解碼,得到所述語音輸入信號對應的轉(zhuǎn)寫文本。通過上述方式,將口音特征與會話場景相結(jié)合,可以大大提升電話機器人中,對帶口音的語音識別的準確性。
技術(shù)領(lǐng)域
本申請涉及智能語音識別技術(shù)領(lǐng)域,具體而言,涉及一種電話機器人中帶口音的語音識別方法及系統(tǒng)。
背景技術(shù)
隨著消費群體的日益增長,電話回訪的需求太大,以傳統(tǒng)的人工客服組成的呼叫中心,很難在人力成本與回訪質(zhì)量兩者之間取得平衡。電話機器人可以解決這個問題,它由語音識別系統(tǒng)、會話理解系統(tǒng)、語音合成系統(tǒng)三部分組成。語音識別系統(tǒng)作為電話機器人的“耳朵”,負責將顧客的會話語音轉(zhuǎn)換為文字,再進行會話理解,語音識別的準確率在很大程度上決定電話回訪的質(zhì)量;但是因為回訪對象的普通話水平不一,很多帶有方言口音,所以對語音識別的準確性造成了很大的困擾。雖然有部分專利實現(xiàn)了對口音的語音識別,例如公開號為CN106875942A和CN107452379A的專利都對不同地域的口音進行了識別,但是上述兩種方法需要對聲紋特征和語音特征進行建模,來解決不同口音的聲學模型建模,模型復雜度高,且無法提高電話機器人在不同會話場景下語音識別的準確性。
發(fā)明內(nèi)容
本申請的目的在于提供一種電話機器人中帶口音的語音識別方法及系統(tǒng),用以實現(xiàn)提高電話機器人對帶口音的語音識別準確性的技術(shù)效果。
第一方面,本申請實施例提供了一種電話機器人中帶口音的語音識別方法,包括獲取語音輸入信號的高級聲學特征和口音特征;其中包括,獲取語音輸入信號的多幀MFCC特征;利用多層時延神經(jīng)網(wǎng)絡對所述MFCC特征進行非線性變換,提取所述語音輸入信號的高級聲學特征;通過一層時延神經(jīng)網(wǎng)絡對所述高級聲學特征進行非線性變換,提取所述語音輸入信號的口音特征;
將所述高級聲學特征和所述口音特征進行拼接后送入深度神經(jīng)網(wǎng)絡的softmax層,輸出所述語音輸入信號的子因素序列;獲取會話理解系統(tǒng)的會話場景判斷結(jié)果,根據(jù)所述會話場景判定結(jié)果調(diào)用對應的WFST解碼圖對所述子因素序列進行解碼,得到所述語音輸入信號對應的轉(zhuǎn)寫文本。
進一步地,通過一層時延神經(jīng)網(wǎng)絡對所述高級聲學特征進行非線性變換時,每個時間步的計算包含多幀數(shù)據(jù),且進行當前時間步的特征計算時將包含上一時間步的尾部幀數(shù)據(jù)。
進一步地,所述語音識別方法還包括:通過反向傳播法調(diào)整時延神經(jīng)網(wǎng)絡的參數(shù)。
進一步地,所述語音識別方法還包括:獲取用于語言模型訓練的會話文本語料;對所述會話文本語料進行分類,得到不同會話場景下的語料;利用N元模型進行語言模型建模,生成不同會話場景下的語言模型;將所述語言模型轉(zhuǎn)換為不同會話場景下對應的WFST解碼圖。
進一步地,會話場景中的會話開始階段和會話結(jié)束階段共用一個語言模型。
第二方面,本申請實施例提供一種電話機器人中帶口音的語音識別系統(tǒng),包括:
獲取模塊,用于獲取語音輸入信號的高級聲學特征和口音特征;其中包括,獲取語音輸入信號的多幀MFCC特征;利用多層時延神經(jīng)網(wǎng)絡對所述MFCC特征進行非線性變換,提取所述語音輸入信號的高級聲學特征;通過一層時延神經(jīng)網(wǎng)絡對所述高級聲學特征進行非線性變換,提取所述語音輸入信號的口音特征;
子因素序列輸出模塊,用于將所述高級聲學特征和所述口音特征進行拼接后送入深度神經(jīng)網(wǎng)絡的softmax層,輸出所述語音輸入信號的子因素序列;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都曉多科技有限公司,未經(jīng)成都曉多科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010623463.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:攝像光學鏡頭
- 下一篇:一種基于視覺慣性偏振光融合的無人機位姿估計方法





