[發(fā)明專利]生成合成語音輸入在審
| 申請?zhí)枺?/td> | 202211190699.3 | 申請日: | 2022-09-28 |
| 公開(公告)號: | CN115910029A | 公開(公告)日: | 2023-04-04 |
| 發(fā)明(設(shè)計)人: | 納姆迪·卡盧;費爾南多·費爾南德斯;尤里·菲爾斯特;埃爾溫·詹森;拉凱什·伊耶;楊凌峰 | 申請(專利權(quán))人: | 谷歌有限責(zé)任公司 |
| 主分類號: | G10L13/04 | 分類號: | G10L13/04;G10L13/047;G10L13/08;G10L13/10 |
| 代理公司: | 中原信達(dá)知識產(chǎn)權(quán)代理有限責(zé)任公司 11219 | 代理人: | 鄧聰惠;周亞榮 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 生成 合成 語音 輸入 | ||
本申請涉及生成合成語音輸入。一種基于接收到的文本和一個或多個仿真語音參數(shù)來合成語音的系統(tǒng)和方法。使用指示合成語音的一個或多個特征的一個或多個仿真語音參數(shù)來接收文本?;诮邮盏降膮?shù)來生成合成語音音頻。合成語音音頻數(shù)據(jù)被提供給仿真麥克風(fēng)組件,該仿真麥克風(fēng)組件將合成音頻提供給自動語音識別器。自動語音識別器利用一個或多個語音識別模型來基于合成語音音頻數(shù)據(jù)來生成經(jīng)轉(zhuǎn)換的文本。
背景技術(shù)
可以利用一個或多個仿真器來執(zhí)行應(yīng)用開發(fā),該一個或多個仿真器允許應(yīng)用開發(fā)者開發(fā)應(yīng)用,就好像該應(yīng)用在被測試時在旨在用于該應(yīng)用的設(shè)備上執(zhí)行一樣。例如,應(yīng)用開發(fā)者可以在仿真移動設(shè)備(諸如智能電話)?的仿真器上執(zhí)行應(yīng)用的測試版本。仿真器可以包括模擬仿真設(shè)備的行為的硬件和軟件的編程性仿真。這可以包括例如硬件組件,諸如一個或多個麥克風(fēng)組件、可以在設(shè)備上執(zhí)行的一個或多個操作系統(tǒng)和/或允許開發(fā)者出于測試目的而執(zhí)行應(yīng)用的其他組件。通過利用仿真器代替實際客戶端設(shè)備,開發(fā)者可以測試應(yīng)用的行為,就好像它正在實際客戶端設(shè)備上執(zhí)行一樣。因此,開發(fā)者可以在各種設(shè)備上測試應(yīng)用的執(zhí)行行為,而無需開發(fā)者出于測試目的而擁有每個設(shè)備。
通常,應(yīng)用開發(fā)者可能需要語音作為對正在開發(fā)的應(yīng)用的輸入。然而,由于各種原因,開發(fā)者提供語音作為音頻數(shù)據(jù)可能是不可行的。例如,開發(fā)者可能位于嘈雜的環(huán)境中,在那里提供經(jīng)由麥克風(fēng)捕獲的音頻是不實際的。此外,例如,開發(fā)者可能對當(dāng)接收到與開發(fā)者已知的語言不同的語言的音頻數(shù)據(jù)時一個或多個應(yīng)用的性能感興趣。此外,開發(fā)者可能對使用多于一個聲音作為輸入(例如,不同的性別、口音、語速)來測試應(yīng)用感興趣。
發(fā)明內(nèi)容
本文描述了用于從文本生成合成語音并且處理合成語音的技術(shù)。例如,本文描述的各種技術(shù)涉及接收文本和一個或多個參數(shù),基于文本和參數(shù)生成合成語音,以及將語音提供給仿真麥克風(fēng)組件以用于作為語音輸入來處理。作為響應(yīng),語音被轉(zhuǎn)換成文本并且被處理以使得一個或多個動作被執(zhí)行。通過提供作為合成語音的輸入而不是向仿真器提供文本輸入,在處理輸入之前執(zhí)行自動語音識別(ASR)。相反,如果文本輸入要被提供給仿真器,則由仿真設(shè)備執(zhí)行的任何ASR將不被利用。因此,提供合成語音允許在仿真器上執(zhí)行的應(yīng)用利用ASR輸出,從而確保應(yīng)用正在接收所接收的語音的文本表示而不僅僅是由開發(fā)者所輸入的文本。
作為示例,可以利用仿真器來測試自動化助理應(yīng)用。開發(fā)者可以輸入“Set?analarm?for?3o’clock(設(shè)置3點鐘的鬧鐘)”的文本。通常,這可以由自動化助理處理,如同其是從ASR組件輸出的一樣。然而,因為ASR?組件未被用于生成文本,所以不知道所提供的文本是否與將由ASR組件所生成的文本相同。相反,開發(fā)者可以輸入文本“Set?an?alarm?for3?o’clock”,然后利用文本到語音模型將其轉(zhuǎn)換成合成語音并且將合成語音提供給仿真麥克風(fēng)。然后可以對合成語音執(zhí)行ASR并且可以將來自ASR?組件的輸出提供給自動化助理應(yīng)用。在一些情況下,所輸出的文本可以不同于原始輸入的文本。例如,所輸入的文本可以是“Set?an?alarm?for?3?o’clock”,其被轉(zhuǎn)換成合成語音。當(dāng)合成語音被提供給ASR組件時,所輸出的文本可以是不同于所輸入的文本的“set?an?alarm?to?three?oh?clock(將鬧鐘設(shè)置為3點)”。這可以由自動化助理應(yīng)用以不同于原始文本的方式來解釋,并且如果直接提供了文本,則不同的解釋可能不會以其他方式被識別。結(jié)果,應(yīng)用可能針對兩個不同的文本表現(xiàn)不同,這將是應(yīng)用開發(fā)者感興趣的。因此,應(yīng)用開發(fā)者可以識別來自兩個不同ASR組件的ASR輸出的差異,并且提高開發(fā)中的應(yīng)用的魯棒性。例如,開發(fā)者可以識別來自一些ASR組件的輸出是“set?an?alarm?for?three?oh?clock”而其他ASR組件是“set?an?alarm?for3o’clock”,并且設(shè)計可以處置這兩個可能結(jié)果的應(yīng)用。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于谷歌有限責(zé)任公司,未經(jīng)谷歌有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211190699.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





