[發(fā)明專利]動(dòng)態(tài)的文本到語(yǔ)音供應(yīng)有效
| 申請(qǐng)?zhí)枺?/td> | 201780067743.2 | 申請(qǐng)日: | 2017-07-13 |
| 公開(kāi)(公告)號(hào): | CN109891497B | 公開(kāi)(公告)日: | 2023-08-01 |
| 發(fā)明(設(shè)計(jì))人: | J.J.S.奧坎波 | 申請(qǐng)(專利權(quán))人: | 谷歌有限責(zé)任公司 |
| 主分類號(hào): | G10L13/033 | 分類號(hào): | G10L13/033;G10L15/22;G10L25/48;G10L25/63;G10L21/0364 |
| 代理公司: | 北京市柳沈律師事務(wù)所 11105 | 代理人: | 金玉潔 |
| 地址: | 美國(guó)加利*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 動(dòng)態(tài) 文本 語(yǔ)音 供應(yīng) | ||
描述了動(dòng)態(tài)文本到語(yǔ)音(TTS)過(guò)程和系統(tǒng)。響應(yīng)于接收到向用戶提供信息的命令,設(shè)備檢索信息并確定用戶和環(huán)境屬性,該用戶和環(huán)境屬性包括:(i)當(dāng)用戶發(fā)出詢問(wèn)時(shí)設(shè)備與用戶之間的距離;(ii)用戶的語(yǔ)音特征。基于用戶和環(huán)境屬性,設(shè)備確定用戶的可能情緒、以及用戶和用戶設(shè)備所處的可能環(huán)境。選擇與用戶的可能情緒和語(yǔ)音特征匹配的音頻輸出模板。音頻輸出模板還與用戶和設(shè)備所處的環(huán)境兼容。使用所選擇的音頻輸出模板將檢索的信息轉(zhuǎn)換為音頻信號(hào),并由設(shè)備輸出。
技術(shù)領(lǐng)域
本公開(kāi)一般涉及語(yǔ)音合成。
背景技術(shù)
設(shè)備越來(lái)越多地使用文本到語(yǔ)音(Text-to-speech,TTS)功能來(lái)提供音頻輸出。然而,TTS輸出通常不能自動(dòng)適應(yīng)用戶環(huán)境,并且只有少數(shù)有限的方法(諸如控制設(shè)備的音量)可用于控制TTS輸出。
發(fā)明內(nèi)容
根據(jù)一些實(shí)施方式,在用戶設(shè)備上運(yùn)行的TTS操作可以基于多個(gè)因素自動(dòng)控制和修改音頻輸出,該多個(gè)因素包括用戶的語(yǔ)音、用戶的可能情緒以及用戶設(shè)備所處的環(huán)境。例如,在一些實(shí)施方式中,用戶設(shè)備可以接收向用戶提供信息的命令。響應(yīng)于接收到命令,用戶設(shè)備檢索與命令有關(guān)的信息,并且可以確定用戶和環(huán)境屬性,該用戶和環(huán)境屬性包括:(i)指示用戶設(shè)備與用戶之間的距離的接近度指示符;(ii)用戶的語(yǔ)音特征,諸如音調(diào)或音高;(iii)環(huán)境噪音。用戶設(shè)備還可以確定要通過(guò)其輸出檢索的信息的應(yīng)用。用戶設(shè)備選擇與用戶和環(huán)境屬性匹配并且與用戶和用戶設(shè)備所處的環(huán)境兼容的音頻輸出模板。檢索的信息被轉(zhuǎn)換成符合所選擇的音頻輸出模板的音頻信號(hào)并且由用戶設(shè)備輸出。可以實(shí)施隱私和安全策略,使得用戶設(shè)備可以維護(hù)用戶隱私并不向第三方輸出信息或響應(yīng)第三方命令。
根據(jù)一些實(shí)施方式,可以動(dòng)態(tài)地生成由用戶設(shè)備輸出的音頻信號(hào)以,例如,通過(guò)匹配用戶說(shuō)話的音調(diào)或音高或者通過(guò)發(fā)音某些單詞或音節(jié)匹配用戶的語(yǔ)音或情緒來(lái)模仿用戶的語(yǔ)音或情緒的特征。在一些實(shí)施方案中,用戶設(shè)備可以確定用戶離用戶設(shè)備有多遠(yuǎn)并相應(yīng)地調(diào)整音頻輸出信號(hào)的音量或強(qiáng)度。在一些實(shí)施方式中,用戶設(shè)備可以確定用戶所處的環(huán)境的類型,并根據(jù)所確定的環(huán)境類型來(lái)調(diào)整音頻輸出信號(hào)。例如,用戶設(shè)備可以確定用戶處于擁擠的環(huán)境中并且可以增加音頻輸出信號(hào)的音量,使得用戶盡管處于擁擠的環(huán)境中,也可以聽(tīng)到音頻輸出信號(hào)。在另一示例中,用戶設(shè)備可以確定用戶處于擁擠的環(huán)境中,并且可以從用戶請(qǐng)求輸出音頻信號(hào)的許可,使得用戶可能不想向第三方公開(kāi)的信息保持私密。
在一些實(shí)施方式中,本說(shuō)明書(shū)中描述的主題的創(chuàng)新方面包括執(zhí)行操作的計(jì)算機(jī)實(shí)施的方法。該操作包括由一個(gè)或多個(gè)計(jì)算設(shè)備基于以下中的一個(gè)或多個(gè)來(lái)確定一個(gè)或多個(gè)用戶屬性:(i)與用戶設(shè)備相關(guān)聯(lián)的用戶的語(yǔ)音特征、以及(ii)指示用戶與用戶設(shè)備之間的距離的接近度指示符。操作還包括由一個(gè)或多個(gè)計(jì)算設(shè)備獲得要輸出的數(shù)據(jù)。操作還包括由一個(gè)或多個(gè)計(jì)算設(shè)備基于一個(gè)或多個(gè)用戶屬性選擇音頻輸出模板。操作還包括由一個(gè)或多個(gè)計(jì)算設(shè)備使用所選擇的音頻輸出模板生成包括數(shù)據(jù)的音頻信號(hào)。操作還包括由一個(gè)或多個(gè)計(jì)算設(shè)備提供用于輸出的音頻信號(hào)。
每個(gè)實(shí)施方式可以可選地包括以下特征中的一個(gè)或多個(gè)。例如,在一些實(shí)施方式中,與用戶設(shè)備相關(guān)聯(lián)的用戶的語(yǔ)音特征包括與用戶相關(guān)聯(lián)的音頻語(yǔ)音信號(hào)中的音高、音調(diào)、頻率和振幅中的一個(gè)或多個(gè)。
在一些實(shí)施方式中,操作包括確定環(huán)境屬性并基于所確定的環(huán)境屬性確定環(huán)境的類型。基于所確定的環(huán)境的類型來(lái)選擇音頻輸出模板。
在一些實(shí)施方式中,所選擇的音頻輸出模板包括振幅、頻率、單詞發(fā)音和音調(diào)數(shù)據(jù),以用于配置用于輸出的音頻信號(hào)。所選擇的音頻輸出模板包括與所確定的一個(gè)或多個(gè)用戶屬性匹配的屬性。
在一些實(shí)施方式中,選擇音頻輸出模板的操作包括基于以下中的一個(gè)或多個(gè)來(lái)選擇音頻輸出模板:(I)要輸出的數(shù)據(jù)的類型、以及(II)用于提供要輸出的數(shù)據(jù)的應(yīng)用的類型。
在一些實(shí)施方式中,操作包括接收輸出數(shù)據(jù)的命令。該命令包括獲得數(shù)據(jù)的用戶請(qǐng)求或來(lái)自被編程為在特定時(shí)間輸出數(shù)據(jù)的應(yīng)用的指令。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于谷歌有限責(zé)任公司,未經(jīng)谷歌有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780067743.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L13-00 語(yǔ)音合成;文本-語(yǔ)音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語(yǔ)音的方法;語(yǔ)音合成設(shè)備
G10L13-06 .語(yǔ)音合成設(shè)備中使用的基本語(yǔ)音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語(yǔ)音合成參數(shù)的產(chǎn)生,例如語(yǔ)義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語(yǔ)音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理
- 動(dòng)態(tài)矢量譯碼方法和動(dòng)態(tài)矢量譯碼裝置
- 動(dòng)態(tài)口令的顯示方法及動(dòng)態(tài)令牌
- 動(dòng)態(tài)庫(kù)管理方法和裝置
- 動(dòng)態(tài)令牌的身份認(rèn)證方法及裝置
- 令牌、動(dòng)態(tài)口令生成方法、動(dòng)態(tài)口令認(rèn)證方法及系統(tǒng)
- 一種動(dòng)態(tài)模糊控制系統(tǒng)
- 一種基于動(dòng)態(tài)信號(hào)的POS機(jī)和安全保護(hù)方法
- 圖像動(dòng)態(tài)展示的方法、裝置、系統(tǒng)及介質(zhì)
- 一種基于POS機(jī)聚合碼功能分離顯示動(dòng)態(tài)聚合碼的系統(tǒng)
- 基于動(dòng)態(tài)口令的身份認(rèn)證方法、裝置和動(dòng)態(tài)令牌
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 供應(yīng)原材料的分配設(shè)備及方法
- 化學(xué)液供應(yīng)與回收裝置
- 電源供應(yīng)電路、電源供應(yīng)系統(tǒng)以及電源供應(yīng)方法
- 圖像形成裝置及其功率供應(yīng)控制方法
- 液體供應(yīng)裝置及其控制方法
- 用于供應(yīng)棒狀元件的供應(yīng)系統(tǒng)、供應(yīng)單元、供應(yīng)器和方法
- 電力物資供應(yīng)管控方法、裝置和電子設(shè)備
- 材料供應(yīng)裝置、材料供應(yīng)系統(tǒng)及材料供應(yīng)方法
- 材料供應(yīng)裝置、材料供應(yīng)系統(tǒng)
- 供應(yīng)裝置及供應(yīng)系統(tǒng)





