[發明專利]生成合成語音輸入在審

申請號：	202211190699.3	申請日：	2022-09-28
公開（公告）號：	CN115910029A	公開（公告）日：	2023-04-04
發明（設計）人：	納姆迪·卡盧;費爾南多·費爾南德斯;尤里·菲爾斯特;埃爾溫·詹森;拉凱什·伊耶;楊凌峰	申請（專利權）人：	谷歌有限責任公司
主分類號：	G10L13/04	分類號：	G10L13/04;G10L13/047;G10L13/08;G10L13/10
代理公司：	中原信達知識產權代理有限責任公司 11219	代理人：	鄧聰惠;周亞榮
地址：	美國加利***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	生成合成語音輸入
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種由計算設備的一個或多個處理器實現的方法，所述方法包括：

接收文本和一個或多個仿真語音參數，其中，響應于與仿真器的仿真接口的用戶交互而接收所述文本和所述一個或多個仿真語音參數，所述仿真器具有仿真麥克風組件；

基于所述文本和所述一個或多個仿真語音參數來生成合成語音音頻數據，其中，生成所述合成語音音頻數據包括使用語音合成模型并且基于所述一個或多個仿真語音參數來處理所述文本；

將所述合成語音音頻數據提供給所述仿真麥克風組件；以及

響應于提供所述合成語音音頻數據：

使得使用語音到文本模型將所述合成語音音頻數據轉換成經轉換的文本；以及

處理經轉換的文本以使得執行一個或多個動作。

2.根據權利要求1所述的方法，其中，所述合成語音音頻數據是脈沖編碼調制(PCM)音頻數據。

3.根據權利要求1所述的方法，其中，所述一個或多個仿真語音參數包括用于所述合成語音音頻數據的語速。

4.根據權利要求1所述的方法，其中，所述一個或多個仿真語音參數包括用于所述合成語音音頻數據的語言。

5.根據權利要求4所述的方法，還包括：

將所述文本翻譯成所述語言的第二文本，其中，生成所述合成語音音頻數據包括基于所述第二文本來生成所述合成語音音頻數據。

6.根據權利要求1所述的方法，其中，代替在所述計算設備處基于所述文本和所述一個或多個仿真語音參數來生成合成語音音頻數據，從第二計算設備接收合成語音音頻數據，所述合成語音音頻數據是在所述第二計算設備處使用語音合成模型基于所述一個或多個仿真語音參數來處理所述文本的結果。

7.根據權利要求1所述的方法，其中，處理經轉換的文本以使得執行一個或多個動作包括：

將經轉換的文本與所述文本進行比較；以及

基于所述比較來確定指示經轉換的文本與所述文本之間的相似性的準確度分值。

8.一種包括一個或多個處理器和存儲指令的存儲器的系統，所述指令當由所述一個或多個處理器執行時，使得所述一個或多個處理器執行包括以下的操作：

將所述合成語音音頻數據提供給所述仿真麥克風組件；以及

響應于提供所述合成語音音頻數據：

使得使用語音到文本模型將所述合成語音音頻數據轉換成經轉換的文本；以及

處理經轉換的文本以使得執行一個或多個動作。

9.根據權利要求8所述的系統，其中，所述合成語音音頻數據是脈沖編碼調制(PCM)音頻數據。

10.根據權利要求8所述的系統，其中，所述一個或多個仿真語音參數包括用于所述合成語音音頻數據的語速。

11.根據權利要求8所述的系統，其中，所述一個或多個仿真語音參數包括用于所述合成語音音頻數據的語言。

12.根據權利要求11所述的系統，其中，所述操作還包括：

將所述文本翻譯成所述語言的第二文本，其中，生成所述合成語音音頻數據包括基于所述第二文本來生成所述合成語音音頻數據。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司，未經谷歌有限責任公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202211190699.3/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】