一種用于將文本轉換為語音的電子裝置和方法。電子裝置包括處理器和與處理器電連接的存儲器。存儲器存儲超級群集型通用聲學數據集和使處理器執行以下操作的指令:獲取至少一個文本,選擇與獲取的文本被轉換成的語音相關聯的信息,當所選擇的信息是第一信息時,選擇第一路徑中的至少一條第一路徑,基于所選擇的第一路徑來加載所述超級群集型通用聲學數據集中的元素,并基于所述超級群集型通用聲學數據集中的所述元素來產生第一聲學信號,當所選擇的信息是第二信息時,選擇第二路徑中的至少一條第二路徑,基于所述至少一條的第二路徑來加載所述超級群集型通用聲學數據集中的元素,并基于所述超級群集型通用數據集中的所述元素來產生第二聲學信號。
技術領域
本公開涉及一種執行基于參數的文本到語音(TTS)的電子裝置。更具體地,本公開涉及一種利用支持多語言/說話人的超級群集型通用聲學數據集的使用所述超級群集型通用聲學數據集來執行TTS轉換的電子裝置及其轉換TTS的方法。
背景技術
基于參數的文本到語音(TTS)轉換可具有語言處理器和針對每種語言的語音數據,基于輸入句子的句子分析結果選擇合適的語音數據,并基于其連接和轉換產生合成聲音。由于TTS轉換不接收語音作為輸入(如編解碼器(CODEC)),而接收文本作為輸入,因此可首先執行以下處理:估計適合于文本的語音數據并以聲學模形的形式存儲估計出的語音數據。基于參數的TTS可具有針對每種語言和每個說話人的聲學模型,每個聲學模型的大小大約為5MB。
在提供針對多語言的TTS商業服務的情況下,隨著服務語言的數量和支持說話人的語言的數量的增加,針對某類語言或某類說話人的聲學模型的語音數據隨之增加,因此可能出現電子裝置容量負擔增加的問題。此外,基于決策樹的聲學模型可在音素單元被劃分的細分音素單元中大量產生代表聲學數據的葉節點,細分音素單元中的聲學信號不易被人耳區分。在異質語言和說話人間可顯著地出現具有相似形式的葉節點被大量產生的現象,這會導致在由語言和說話人劃分并存儲的聲學模型本身包括高冗余的問題。
上述信息僅作為背景信息被呈現以幫助理解本公開。至于上述信息中的任何信息是否可用作針對本公開的現有技術,尚未做出決定,也未做出斷定。
發明內容
本公開的多個方面在于至少解決上述問題和/或缺點并且至少提供以下描述的優點。因此,本公開的一方面提供用于將文本轉換到語音(TTS)的方法和設備,所述方法和設備可配置由多語言/說話人共享的超級群集型通用聲學數據(SCCAD),并通過基于支持多語言/說話人的超級群集型通用聲學數據執行基于參數的TTS轉換以大大降低容量。
根據本公開的一方面,提供了一種電子裝置。所述電子裝置包括:處理器;存儲器,與處理器電連接,其中,存儲器被配置為存儲超級群集型通用聲學數據集,其中,存儲器還被配置為存儲使處理器能夠執行以下操作的指令:獲取至少一個文本、選擇與所獲取的文本被轉換成的語音相關聯的信息,當所選擇的信息是第一信息時,選擇多條第一路徑中的至少一條第一路徑,基于所選擇的至少一條第一路徑來加載所述超級群集型通用聲學數據集的至少一個元素,并基于加載的所述超級群集型通用聲學數據集的所述至少一個元素來產生第一聲學信號,當所選擇的信息是第二信息時,選擇多條第二路徑中的至少一條第二路徑,基于所選擇的至少一條第二路徑來加載所述超級群集型通用聲學數據集的至少一個元素或至少一個其它元素,并基于加載的所述超級群集型通用聲學數據集的所述至少一個元素或所述至少一個其它元素來產生第二聲學信號。
根據本公開的另一方面,提供了一種電子裝置。所述電子裝置包括:處理器;存儲器,與處理器電連接,其中,存儲器被配置為存儲使處理器能夠執行以下操作的指令:獲取與關于語音的第一信息相應的第一聲學數據集和與關于所述語音的第二信息相應的第二聲學數據集;確定第一聲學數據集的至少一個元素和/或第二聲學數據集的至少一個元素之間的相似度;基于所述被確定來產生與第一聲學數據集的所述至少一個元素和/或第二聲學數據集的所述至少一個元素相關聯的超級群集型通用聲學數據集。