[發明專利]語音合成的方法及裝置有效
| 申請號: | 202010563888.5 | 申請日: | 2020-06-19 |
| 公開(公告)號: | CN111883103B | 公開(公告)日: | 2021-12-24 |
| 發明(設計)人: | 黃磊;蔣寧;楊春勇;靳丁南;權圣 | 申請(專利權)人: | 馬上消費金融股份有限公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L13/04;G10L13/02 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 許靜;張博 |
| 地址: | 404100 重慶市渝北區*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 方法 裝置 | ||
本發明實施例提供一種語音合成的方法及裝置,該方法包括:獲取交互式問答結果的文本,所述文本包括:常量文本和變量文本;從常量錄音庫獲取與所述常量文本對應的常量語音;根據所述變量文本,獲取變量語音;根據所述文本中的內容,對所述常量語音和變量語音進行拼接,并調整經過拼接的所述常量語音和變量語音的語音合成自然度。
技術領域
本發明實施例涉及計算機技術領域,具體涉及一種語音合成的方法及裝置。
背景技術
隨著科技的發展,機器已經可以通過語音合成技術進行說話。所謂的語音合成技術,也被稱為從文本到語音(Text to Speech,TTS),其目標是讓機器通過識別和理解,把文本信息變成人造語音輸出,是現代人工智能發展的重要分支。語音合成能夠在質量檢測、機器問答、殘障輔助等領域發揮極大作用,方便人們的生活。
然而,現有的機器所能合成語音往往具有固定的模式,生成的語音在韻律方面較為生硬,與真人具有明顯的差異,因此在某些對合成語音的擬人度要求比較高的場景下,終端用戶往往不能接受如此生硬的韻律。
發明內容
本發明實施例的一個目的在于提供一種語音合成的方法及裝置,解決語音合成自然度較差的問題。
第一方面,本發明實施例提供一種語音合成的方法,包括:
獲取交互式問答結果的文本,所述文本包括:常量文本和變量文本;
從常量錄音庫獲取與所述常量文本對應的常量語音;
根據所述變量文本,獲取變量語音;
根據所述文本中的內容,對所述常量語音和變量語音進行拼接,并調整經過拼接的所述常量語音和變量語音的語音合成自然度。
可選地,所述根據所述變量文本,獲取變量語音,包括:
判斷變量錄音庫中是否有與所述變量文本對應的變量語音;
如果有,則從變量錄音庫獲取與所述變量文本對應的變量語音,根據所述文本中的內容,對所述常量語音和變量語音進行拼接,并調整所述常量語音和變量語音的語音合成自然度;
如果沒有,則通過端到端模型獲取目標變量語音。
可選地,所述調整所述常量語音和變量語音的語音合成自然度,包括:
對所述常量語音和變量語音的音量和/或語速進行調整;
和/或,
對所述常量語音和變量語音中信號能量值小于預設數值的語音信號進行切除;
和/或,
對所述常量語音和變量語音中信號能量值小于預設數值,但具有預設清輔音發音的語音信號進行保留。
可選地,所述調整所述常量語音和變量語音拼接處的語音合成自然度,包括:
對變量語音進行語音信號衰減處理;
對與所述變量語音進行拼接的常量語音進行語音信號衰減處理。
可選地,所述對變量語音進行語音信號衰減處理,包括:
根據所述變量語音中的每個語音信號的能量值,確定所述變量語音的語音信號的平均能量值;
根據所述平均能量值和預設的語音信號衰減度,確定語音信號衰減的位置;
根據所述語音信號衰減的位置和預設衰減系數,進行語音信號衰減處理;
所述對與所述變量語音進行拼接的常量語音進行語音信號衰減處理,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于馬上消費金融股份有限公司,未經馬上消費金融股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010563888.5/2.html,轉載請聲明來源鉆瓜專利網。





