[發(fā)明專利]語音合成方法、裝置、存儲介質(zhì)和電子設(shè)備有效
| 申請?zhí)枺?/td> | 202010340818.3 | 申請日: | 2020-04-26 |
| 公開(公告)號: | CN111653266B | 公開(公告)日: | 2023-09-05 |
| 發(fā)明(設(shè)計(jì))人: | 楊惠;梁光;舒景辰;譚星;張岱 | 申請(專利權(quán))人: | 北京大米科技有限公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L13/047 |
| 代理公司: | 北京恒博知識產(chǎn)權(quán)代理有限公司 11528 | 代理人: | 李寧寧 |
| 地址: | 100123 北京市朝*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 合成 方法 裝置 存儲 介質(zhì) 電子設(shè)備 | ||
本申請?zhí)峁┑恼Z音合成方法、裝置、存儲介質(zhì)和電子設(shè)備,確定輸入文本的音素序列,所述音素序列包括多個(gè)子音素序列;確定所述多個(gè)子音素序列中每一個(gè)子音素序列的時(shí)長信息;根據(jù)所述子音素序列的時(shí)長信息,確定所述子音素序列中每一個(gè)音素的時(shí)長信息;根據(jù)所述音素序列和所述每一個(gè)音素的時(shí)長信息,合成所述輸入文本對應(yīng)的語音。在上述語音合成方案中,可以根據(jù)輸入文本合成輸入文本對應(yīng)的語音,而無需人工配音,降低了配音所需的人工成本高,并提升了配音的效率。
技術(shù)領(lǐng)域
本申請涉及語音處理技術(shù)領(lǐng)域,具體而言,涉及一種語音合成方法、裝置、存儲介質(zhì)和電子設(shè)備。
背景技術(shù)
在動畫制作、視頻配音、網(wǎng)上答題等多種場合下,都需要提供匹配的聲音進(jìn)行講解。通常情況下需要在專業(yè)的錄音棚中,由人工錄制對應(yīng)的語音,以便在播放對應(yīng)畫面時(shí),可播放對應(yīng)的聲音。但這種人工配音的方式耗費(fèi)的人工成本較高,配音的效率也較低。
發(fā)明內(nèi)容
為了解決上述問題,本申請實(shí)施例提供了一種語音合成方法、裝置和電子設(shè)備。
第一方面,本申請實(shí)施例提供了一種語音合成方法,包括以下步驟:
確定輸入文本的音素序列,所述音素序列包括多個(gè)子音素序列;
確定所述多個(gè)子音素序列中每一個(gè)子音素序列的時(shí)長信息;
根據(jù)所述子音素序列的時(shí)長信息,確定所述子音素序列中每一個(gè)音素的時(shí)長信息;
根據(jù)所述音素序列和所述每一個(gè)音素的時(shí)長信息,合成所述輸入文本對應(yīng)的語音。
可選地,所述確定輸入文本的音素序列,包括:
對所述輸入文本進(jìn)行分詞處理,以獲取多個(gè)分詞;
確定所述多個(gè)分詞對應(yīng)的多個(gè)子音素序列;
組合所述多個(gè)子音素序列,生成所述音素序列。
可選地,所述方法還包括:
確定目標(biāo)子音素序列在多個(gè)樣本語音中的多個(gè)時(shí)長信息;
根據(jù)所述多個(gè)時(shí)長信息,確定所述目標(biāo)子音素序列的預(yù)測時(shí)長信息;
根據(jù)多個(gè)所述目標(biāo)子音素序列的預(yù)測時(shí)長信息,生成子音素序列的時(shí)長統(tǒng)計(jì)結(jié)果;
所述確定所述多個(gè)子音素序列中每一個(gè)子音素序列的時(shí)長信息,包括:
根據(jù)子音素序列時(shí)長的統(tǒng)計(jì)結(jié)果,確定所述多個(gè)子音素序列中每一個(gè)子音素序列的時(shí)長信息。
可選地,所述根據(jù)所述多個(gè)時(shí)長信息,確定所述目標(biāo)子音素序列的預(yù)測時(shí)長信息,包括:
計(jì)算所述每個(gè)時(shí)長信息的概率;
選取具有最大概率的時(shí)長信息作為所述目標(biāo)子音素序列的所述預(yù)測時(shí)長信息。
可選地,所述根據(jù)所述子音素序列的時(shí)長信息,確定所述子音素序列中每一個(gè)音素的時(shí)長信息,包括:
確定所述子音素序列中每一個(gè)音素的時(shí)長占比;
將所述子音素序列的時(shí)長信息和所述每一個(gè)音素的時(shí)長占比的乘積,作為所述每一個(gè)音素的時(shí)長信息。
可選地,所述確定所述子音素序列中每一個(gè)音素的時(shí)長占比,包括:
確定所述子音素序列中的音素個(gè)數(shù);
將所述音素個(gè)數(shù)的倒數(shù)作為所述每一個(gè)音素的時(shí)長占比。
可選地,所述確定所述子音素序列中每一個(gè)音素的時(shí)長占比,包括:
確定所述子音素序列中的韻母音素個(gè)數(shù)和聲母音素個(gè)數(shù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大米科技有限公司,未經(jīng)北京大米科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010340818.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





