[發(fā)明專利]一種語音應(yīng)答方法、裝置和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010098634.0 | 申請日: | 2020-02-18 |
| 公開(公告)號: | CN111312245B | 公開(公告)日: | 2023-08-08 |
| 發(fā)明(設(shè)計)人: | 王超 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/26;G10L15/06;G10L15/02;G10L15/04;G10L15/08;G10L25/12;G10L25/18;G10L25/51;G10L25/63;G06F40/30 |
| 代理公司: | 深圳翼盛智成知識產(chǎn)權(quán)事務(wù)所(普通合伙) 44300 | 代理人: | 蔡艾瑩 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 應(yīng)答 方法 裝置 存儲 介質(zhì) | ||
本申請實施例公開了一種語音應(yīng)答方法、裝置和存儲介質(zhì),其中,本申請實施例可以獲取用戶輸入的語音信息;提取所述語音信息的音頻特征信息,并基于預(yù)設(shè)情感聲學(xué)參數(shù)和所述音頻特征信息,生成所述語音信息的情感聲學(xué)特征信息;根據(jù)所述語音信息的音頻特征信息,獲取所述語音信息對應(yīng)的文本信息,并提取所述文本信息的語義特征信息;根據(jù)所述情感聲學(xué)特征信息和所述語義特征信息,獲取所述語音信息的情感類型;基于所述情感類型,獲取所述語音信息對應(yīng)的應(yīng)答內(nèi)容。根據(jù)語音信息的情感類型,可以深度理解用戶的需求,從而選擇更合理的應(yīng)答內(nèi)容,可以安撫用戶的情緒,提高用戶體驗。
技術(shù)領(lǐng)域
本申請涉及人工智能的技術(shù)領(lǐng)域,具體涉及一種語音應(yīng)答方法、裝置和存儲介質(zhì)。
背景技術(shù)
近年來,隨著語音識別技術(shù)的發(fā)展,語音識別技術(shù)也被應(yīng)用到多種場景,比如,智能語音客戶服務(wù)系統(tǒng),智能終端對話場景等。目前,可以應(yīng)用語音識別(Automatic?SpeechRecognition,ASR)技術(shù),將用戶輸入的語音信息轉(zhuǎn)化為文本信息,并通過自然語言處理(Natural?Language?Processing,NLP)技術(shù),理解文本信息包含的領(lǐng)域信息和意圖信息,根據(jù)文本信息包含的領(lǐng)域信息和意圖關(guān)鍵詞選擇相應(yīng)的應(yīng)答內(nèi)容。但是,這種應(yīng)答方法對于用戶的要求理解不夠深入,應(yīng)答內(nèi)容過于死板,導(dǎo)致用戶體驗不佳。
發(fā)明內(nèi)容
有鑒于此,本申請實施例提供了一種語音應(yīng)答方法、裝置和存儲介質(zhì),可以安撫用戶的情緒,提高用戶的體驗。
第一方面,本申請實施例提供了一種語音應(yīng)答方法,包括:
獲取用戶輸入的語音信息;
提取所述語音信息的音頻特征信息,并基于預(yù)設(shè)情感聲學(xué)參數(shù)和所述音頻特征信息,生成所述語音信息的情感聲學(xué)特征信息;
根據(jù)所述語音信息的音頻特征信息,獲取所述語音信息對應(yīng)的文本信息,并提取所述文本信息的語義特征信息;
根據(jù)所述情感聲學(xué)特征信息和所述語義特征信息,獲取所述語音信息的情感類型;
基于所述情感類型,獲取所述語音信息對應(yīng)的應(yīng)答內(nèi)容。
在一實施例中,在所述根據(jù)所述情感聲學(xué)特征信息和所述語義特征信息,獲取所述語音信息的情感類型之前,還包括:
獲取多張標(biāo)注有真實情感類型的語音信息樣本;
獲取所述語音信息樣本的聲學(xué)特征信息和語義特征信息;
通過預(yù)設(shè)初始情感識別模型,對所述情感聲學(xué)特征信息和所述語義特征信息進(jìn)行融合,獲取所述語音信息樣本的情感類型預(yù)測值;
對比所述情感類型預(yù)測值與所述真實情感類型,確定預(yù)測結(jié)果;
采用損失函數(shù)對所述預(yù)設(shè)初始情感識別模型進(jìn)行收斂,直至所述預(yù)測結(jié)果為預(yù)測正確,得到訓(xùn)練后的情感識別模型。
在一實施例中,所述根據(jù)所述情感聲學(xué)特征信息和所述語義特征信息,獲取所述語音信息的情感類型,包括:
根據(jù)所述訓(xùn)練后的情感識別模型,將所述語義特征信息和所述情感聲學(xué)特征信息進(jìn)行融合,得到所述語音信息的情感特征信息;
基于所述訓(xùn)練后的情感識別模型對所述情感特征信息進(jìn)行全連接運(yùn)算,得到情感類型對應(yīng)的概率信息;
根據(jù)所述概率信息,確定所述語音信息的情感類型。
在一實施例中,所述基于預(yù)設(shè)情感聲學(xué)參數(shù)和所述音頻特征信息,生成所述語音信息的情感聲學(xué)特征信息,包括:
根據(jù)所述音頻特征信息,獲取所述預(yù)設(shè)情感聲學(xué)參數(shù)對應(yīng)的目標(biāo)聲學(xué)參數(shù);
將所述目標(biāo)聲學(xué)參數(shù)與所述預(yù)設(shè)情感聲學(xué)參數(shù)進(jìn)行比較,得到比較結(jié)果;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010098634.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





