[發明專利]語音合成中的文本處理方法及電子設備在審

申請號：	202210193309.1	申請日：	2022-02-28
公開（公告）號：	CN114664283A	公開（公告）日：	2022-06-24
發明（設計）人：	包鑫彤	申請（專利權）人：	阿里巴巴（中國）有限公司
主分類號：	G10L13/02	分類號：	G10L13/02;G10L13/033;H04L67/30;H04N21/439;H04N21/488;G06F40/166
代理公司：	北京眾達德權知識產權代理有限公司 11570	代理人：	南海燕
地址：	310000 浙江省杭州市濱江***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音合成中的文本處理方法電子設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施例公開了語音合成中的文本處理方法及電子設備，所述方法包括：確定需要進行語音合成的文本內容；確定所述文本內容中需要增強聲音表現力的目標位置，以及用于在所述目標位置處進行聲音表現力增強的目標聲音素材；在將所述文本內容轉換為語音合成結果的過程中，將所述目標聲音素材插入到所述目標位置處進行播放。通過本申請實施例，可以實現對整體語音合成結果的聲音表現力的增強。

技術領域

本申請涉及語音合成技術領域，特別是涉及語音合成中的文本處理方法及電子設備。

背景技術

在很多應用系統中，都存在通過人工智能(可以具有虛擬形象，包括虛擬人物、虛擬動物等)與用戶進行人機互動的應用。例如，在商品信息服務系統的直播應用中，通過“虛擬主播”對商品進行語音講解，等等。

在通過人工智能進行語音播報的過程中，通常是預先準備好文本內容(可以稱為“劇本”)，然后，通過TTS(Text To Speech，從文本到語音)技術轉換為語音信號進行播放。其中，如果直接通過簡單的TTS技術進行從文本到語音的轉換，則會存在表現力比較差的問題，包括播報聲音平淡，缺乏情感表達，斷句不夠自然，等等。

為了提升人工智能進行語音播報過程中的表現力，現有技術中提供一些TTS優化算法。這些算法可以用于進行韻律預測，以使得語音播報過程中的斷句更自然；或者，還可以根據一些語言學特征進行建模，提升對真人發聲的擬真程度，等等。

雖然現有的TTS優化算法能夠在一定程度上提升人工智能在語音播報過程中的聲音表現力，但是，仍然存在提升空間。

發明內容

本申請提供了語音合成中的文本處理方法及電子設備，可以實現對整體語音合成結果的聲音表現力的增強。

本申請提供了如下方案：

一種語音合成中的文本處理方法，包括：

確定需要進行語音合成的文本內容；

確定所述文本內容中需要增強聲音表現力的目標位置，以及用于在所述目標位置處進行聲音表現力增強的目標聲音素材；

在將所述文本內容轉換為語音合成結果的過程中，將所述目標聲音素材插入到所述目標位置處進行播放。

其中，所述目標聲音素材是通過對真實人物在目標場景中朗讀目標詞語、短語或語句的過程進行錄制的方式獲得的。

其中，還包括：

讀取配置文件，所述配置文件中包括：多個聲音素材分別對應的匹配規則以及插入位置規則信息；