[發(fā)明專利]一種語音應(yīng)答方法、裝置和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010098634.0 | 申請日: | 2020-02-18 |
| 公開(公告)號: | CN111312245B | 公開(公告)日: | 2023-08-08 |
| 發(fā)明(設(shè)計)人: | 王超 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/26;G10L15/06;G10L15/02;G10L15/04;G10L15/08;G10L25/12;G10L25/18;G10L25/51;G10L25/63;G06F40/30 |
| 代理公司: | 深圳翼盛智成知識產(chǎn)權(quán)事務(wù)所(普通合伙) 44300 | 代理人: | 蔡艾瑩 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 應(yīng)答 方法 裝置 存儲 介質(zhì) | ||
1.一種語音應(yīng)答方法,其特征在于,包括:
獲取用戶輸入的語音信息;
提取所述語音信息的音頻特征信息,并基于預(yù)設(shè)情感聲學(xué)參數(shù)和所述音頻特征信息,生成所述語音信息的情感聲學(xué)特征信息;所述情感聲學(xué)特征信息是與情感相關(guān)的聲學(xué)特征;
根據(jù)所述語音信息的音頻特征信息,獲取所述語音信息對應(yīng)的文本信息,并提取所述文本信息的語義特征信息;
根據(jù)所述情感聲學(xué)特征信息和所述語義特征信息,獲取所述語音信息的情感類型;
基于所述情感類型,獲取所述語音信息對應(yīng)的應(yīng)答內(nèi)容;
其中,所述基于預(yù)設(shè)情感聲學(xué)參數(shù)和所述音頻特征信息,生成所述語音信息的情感聲學(xué)特征信息,包括:根據(jù)所述音頻特征信息,獲取所述預(yù)設(shè)情感聲學(xué)參數(shù)對應(yīng)的目標(biāo)聲學(xué)參數(shù);將所述目標(biāo)聲學(xué)參數(shù)與所述預(yù)設(shè)情感聲學(xué)參數(shù)進行比較,得到比較結(jié)果;根據(jù)比較結(jié)果,生成所述語音信息的情感聲學(xué)特征信息;
所述根據(jù)所述情感聲學(xué)特征信息和所述語義特征信息,獲取所述語音信息的情感類型,包括:根據(jù)情感識別模型,將所述語義特征信息和所述情感聲學(xué)特征信息進行融合,得到所述語音信息的情感特征信息;基于所述情感識別模型對所述情感特征信息進行全連接運算,得到情感類型對應(yīng)的概率信息;根據(jù)所述概率信息,確定所述語音信息的情感類型。
2.如權(quán)利要求1所述的語音應(yīng)答方法,其特征在于,所述情感識別模型是通過如下的步驟訓(xùn)練的:
獲取多個標(biāo)注有真實情感類型的樣本對,所述樣本對包括語音信息樣本,以及所述語音信息樣本對應(yīng)的文本信息樣本;
提取所述語音信息樣本的聲學(xué)特征信息,并提取所述文本信息樣本的語義特征信息;
通過預(yù)設(shè)初始情感識別模型,對所述情感聲學(xué)特征信息和所述語義特征信息進行融合,獲取所述語音信息樣本的情感類型預(yù)測值;
對比所述情感類型預(yù)測值與所述真實情感類型,確定預(yù)測結(jié)果;
采用損失函數(shù)對所述預(yù)設(shè)初始情感識別模型進行收斂,直至所述預(yù)測結(jié)果為預(yù)測正確,得到訓(xùn)練后的情感識別模型。
3.如權(quán)利要求1所述的語音應(yīng)答方法,其特征在于,所述提取所述語音信息的音頻特征信息,包括:
對所述語音信息進行劃分,得到音頻幀;
提取所述音頻幀進行特征提取,得到所述語音信息的音頻特征信息。
4.如權(quán)利要求3所述的語音應(yīng)答方法,其特征在于,所述根據(jù)所述語音信息的音頻特征信息,獲取所述語音信息對應(yīng)的文本信息,包括:
根據(jù)預(yù)設(shè)聲學(xué)模型,獲取所述音頻特征信息對應(yīng)的音素;
根據(jù)預(yù)設(shè)語言模型,對所述音素和預(yù)設(shè)字典進行比較與匹配,得到所述音素對應(yīng)的文本單詞;
提取所述文本單詞之間的語義關(guān)聯(lián)信息,根據(jù)所述關(guān)聯(lián)信息,將所述文本單詞組合得到文本信息。
5.如權(quán)利要求4所述的語音應(yīng)答方法,其特征在于,所述語義特征信息包括語義特征向量,所述提取所述文本信息的語義特征信息,包括:
對所述文本信息進行劃分,得到至少一個文本片段;
預(yù)設(shè)語義特征提取模型內(nèi)的預(yù)設(shè)字典,將所述文本片段映射為片段特征向量,其中所述語義特征提取模型是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型;
根據(jù)所述片段特征向量及語義特征提取模型特征提取時刻的隱層狀態(tài),生成語義特征向量。
6.如權(quán)利要求5所述的語音應(yīng)答方法,其特征在于,所述根據(jù)所述片段特征向量及語義特征提取模型特征提取時刻的隱層狀態(tài),生成語義特征向量,包括:
確定所述語義特征提取模型中當(dāng)前特征提取時刻的上一時刻,獲取所述上一時刻的向前隱層狀態(tài),根據(jù)所述片段特征向量和向前隱層狀態(tài)計算所述當(dāng)前特征提取時刻的向前隱層狀態(tài);
確定所述當(dāng)前特征提取時刻的下一時刻,獲取所述下一時刻的向后隱層狀態(tài),根據(jù)所述片段特征向量和向后隱層狀態(tài)計算當(dāng)前特征提取時刻的向后隱層狀態(tài);
根據(jù)所述當(dāng)前特征提取時刻的向前隱層狀態(tài)和向后隱層狀態(tài),計算得到語義特征向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010098634.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





