[發(fā)明專利]基于喚醒語音模型的喚醒語音合成方法及應(yīng)用喚醒方法在審

申請?zhí)枺?/td>	202110190523.7	申請日：	2021-02-18
公開（公告）號：	CN113012681A	公開（公告）日：	2021-06-22
發(fā)明（設(shè)計(jì)）人：	彭金華;李牧之;陳潮濤;姜迪	申請（專利權(quán)）人：	深圳前海微眾銀行股份有限公司
主分類號：	G10L13/047	分類號：	G10L13/047;G10L13/04;G10L13/08
代理公司：	北京派特恩知識產(chǎn)權(quán)代理有限公司 11270	代理人：	劉暉銘;張穎玲
地址：	518027 廣東省深圳市***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于喚醒語音模型合成方法應(yīng)用
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于喚醒語音模型的喚醒語音合成方法，其特征在于，所述喚醒語音模型包括聲紋提取層、音素轉(zhuǎn)換層及預(yù)測層，所述方法包括：

通過所述聲紋提取層，對不同用戶的語音進(jìn)行聲紋特征提取，得到相應(yīng)的用戶聲紋；

通過所述音素轉(zhuǎn)換層，對喚醒文本進(jìn)行音素轉(zhuǎn)換，得到相應(yīng)的喚醒音素序列；

基于所述用戶聲紋和所述喚醒音素序列，通過所述預(yù)測層，進(jìn)行語音參數(shù)預(yù)測，得到相應(yīng)的預(yù)測語音參數(shù)；

基于所述預(yù)測語音參數(shù)進(jìn)行語音合成，得到相應(yīng)的喚醒語音；

其中，所述喚醒語音，用于在與待匹配語音匹配成功時(shí)，喚醒目標(biāo)程序。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述預(yù)測語音參數(shù)進(jìn)行語音合成，得到相應(yīng)的喚醒語音，包括：

基于所述預(yù)測語音參數(shù)進(jìn)行頻譜轉(zhuǎn)換，得到相應(yīng)的語音頻譜；

基于所述語音頻譜進(jìn)行語音編碼，得到相應(yīng)的喚醒語音。

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

獲取與所述喚醒文本不匹配的負(fù)例音素序列；

基于所述負(fù)例音素序列，進(jìn)行語音合成得到所述喚醒文本對應(yīng)的負(fù)例語音；

響應(yīng)于針對待匹配語音的語音匹配請求，將所述待匹配語音分別與所述喚醒語音、所述負(fù)例語音進(jìn)行匹配，得到匹配結(jié)果；

發(fā)送所述匹配結(jié)果，以在所述匹配結(jié)果表征所述待匹配語音與所述負(fù)例語音匹配成功時(shí)，不對目標(biāo)程序進(jìn)行喚醒。

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述通過所述音素轉(zhuǎn)換層，對喚醒文本進(jìn)行音素轉(zhuǎn)換，得到相應(yīng)的喚醒音素序列，包括：

獲取重讀參數(shù)及停頓參數(shù)中的至少之一作為讀音參數(shù)；

基于所述讀音參數(shù)，通過所述音素轉(zhuǎn)換層，對喚醒文本進(jìn)行音素轉(zhuǎn)換，得到相應(yīng)的喚醒音素序列。

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

獲取語速參數(shù)、音高參數(shù)及音量參數(shù)中的至少之一作為語音泛化參數(shù)；

基于所述語音泛化參數(shù)，對所述喚醒語音進(jìn)行語音泛化處理，得到泛化后的喚醒語音。

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

接收針對待匹配語音的語音匹配請求；

響應(yīng)于所述語音匹配請求，對所述待匹配語音的波形特征與所述喚醒語音的波形特征進(jìn)行比對，以確定所述待匹配語音與所述喚醒語音的相似度；

發(fā)送確定的所述相似度，以在所述相似度達(dá)到相似度閾值時(shí)，喚醒目標(biāo)程序。

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

獲取攜帶第一分類標(biāo)簽的喚醒語音、以及攜帶第二分類標(biāo)簽的負(fù)例語音；

其中，所述第一分類標(biāo)簽指示所述喚醒語音與所述喚醒文本相匹配，所述第二分類標(biāo)簽指示所述負(fù)例語音與所述喚醒文本不匹配；

基于攜帶第一分類標(biāo)簽的喚醒語音及攜帶第二分類標(biāo)簽的負(fù)例語音，構(gòu)建訓(xùn)練樣本集合，并基于所述訓(xùn)練樣本集合訓(xùn)練語音分類模型；

其中，所述語音分類模型，用于對輸入的待匹配語音進(jìn)行分類，輸出與喚醒文本是否匹配的分類結(jié)果。

8.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述喚醒語音模型還包括語音合成層，所述基于所述預(yù)測語音參數(shù)進(jìn)行語音合成，得到相應(yīng)的喚醒語音，包括：

基于所述預(yù)測語音參數(shù)，通過所述語音合成層，進(jìn)行語音合成，得到相應(yīng)的喚醒語音。

9.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述通過所述聲紋提取層，對用戶語音進(jìn)行聲紋特征提取之前，所述方法還包括：

通過所述聲紋提取層，對樣本語音進(jìn)行聲紋特征提取，得到相應(yīng)的樣本聲紋；其中，所述樣本語音攜帶語音參數(shù)標(biāo)簽；

通過所述音素轉(zhuǎn)換層，對所述樣本語音對應(yīng)的樣本文本進(jìn)行音素轉(zhuǎn)換，得到相應(yīng)的樣本音素序列；

基于所述樣本聲紋和所述樣本音素序列，通過所述預(yù)測層，進(jìn)行語音參數(shù)預(yù)測，得到相應(yīng)的預(yù)測語音參數(shù)；

基于所述預(yù)測語音參數(shù)與所述語音參數(shù)標(biāo)簽之間的差異，更新所述喚醒語音模型的模型參數(shù)。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳前海微眾銀行股份有限公司，未經(jīng)深圳前海微眾銀行股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110190523.7/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L13-00 語音合成；文本-語音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語音的方法；語音合成設(shè)備
G10L13-06 .語音合成設(shè)備中使用的基本語音單位；級聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語音合成參數(shù)的產(chǎn)生，例如語義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測定
G10L13-04 ..語音合成系統(tǒng)的零部件，例如合成設(shè)備結(jié)構(gòu)或存儲器管理

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

滑坡模型實(shí)驗(yàn)?zāi)Ｐ图?/a>

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】