[發(fā)明專利]語音合成方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201811318970.0 | 申請(qǐng)日: | 2018-11-07 |
| 公開(公告)號(hào): | CN109584859A | 公開(公告)日: | 2019-04-05 |
| 發(fā)明(設(shè)計(jì))人: | 周廣益 | 申請(qǐng)(專利權(quán))人: | 上海指旺信息科技有限公司 |
| 主分類號(hào): | G10L13/027 | 分類號(hào): | G10L13/027;G10L13/08;G10L15/02;G10L15/06;G10L15/26;G06F16/63;G11B20/10 |
| 代理公司: | 北京卓唐知識(shí)產(chǎn)權(quán)代理有限公司 11541 | 代理人: | 唐海力;李志剛 |
| 地址: | 201900 上海*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 特征文字 目標(biāo)文字 音頻文件 目標(biāo)音頻 音頻錄制 語音合成 固定文字 技術(shù)效果 音頻處理 語音播放 語音文件 擬人化 拼接 申請(qǐng) 機(jī)器人 錄制 合成 播放 | ||
本申請(qǐng)公開了一種語音合成方法及裝置,涉及音頻處理領(lǐng)域,該方法包括:獲取用于語音播放的目標(biāo)文字信息;根據(jù)所述目標(biāo)文字信息中的固定文字,得到第一音頻文件;識(shí)別并提取所述目標(biāo)文字信息中的特征文字,得到特征文字信息;對(duì)所述特征文字信息進(jìn)行音頻錄制,得到第二音頻文件;將所述第一音頻文件和所述第二音頻文件進(jìn)行拼接,得到目標(biāo)音頻文件。本申請(qǐng)采用識(shí)別并提取目標(biāo)文字信息中的特征文字的方式,通過對(duì)特征文字信息進(jìn)行針對(duì)性的音頻錄制,達(dá)到了最終的目標(biāo)音頻文件都是由人來錄制的目的,從而實(shí)現(xiàn)了高度擬人化的技術(shù)效果,進(jìn)而解決了相關(guān)技術(shù)中機(jī)器人合成的語音文件在播放時(shí)生硬僵化,缺乏擬人感的問題。
技術(shù)領(lǐng)域
本申請(qǐng)涉及音頻處理領(lǐng)域,具體而言,涉及一種語音合成方法及裝置。
背景技術(shù)
相關(guān)技術(shù)中機(jī)器人根據(jù)目標(biāo)文本信息生成對(duì)應(yīng)的語音文件并播放時(shí),由于目標(biāo)文本信息的多變性,機(jī)器人往往采用固定的電子聲音播放,用戶聽到時(shí)能明顯感覺到是機(jī)器人在講話,而不是真實(shí)的人類在講話,溝通過程生硬僵化,缺乏擬人感。
針對(duì)相關(guān)技術(shù)中機(jī)器人合成的語音文件在播放時(shí)生硬僵化,缺乏擬人感的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本申請(qǐng)的主要目的在于提供一種語音合成方法及裝置,以解決相關(guān)技術(shù)中機(jī)器人合成的語音文件在播放時(shí)生硬僵化,缺乏擬人感的問題。
為了實(shí)現(xiàn)上述目的,根據(jù)本申請(qǐng)的第一方面,本申請(qǐng)實(shí)施例提供了一種語音合成方法,所述方法包括:獲取用于語音播放的目標(biāo)文字信息;根據(jù)所述目標(biāo)文字信息中的固定文字,得到第一音頻文件;識(shí)別并提取所述目標(biāo)文字信息中的特征文字,得到特征文字信息;對(duì)所述特征文字信息進(jìn)行音頻錄制,得到第二音頻文件;將所述第一音頻文件和所述第二音頻文件進(jìn)行拼接,得到目標(biāo)音頻文件。
結(jié)合第一方面,本申請(qǐng)實(shí)施例提供了第一方面的第一種可能的實(shí)施方式,其中,所述特征文字信息包括:姓名信息、金額信息和日期信息中的至少一種。
結(jié)合第一方面,本申請(qǐng)實(shí)施例提供了第一方面的第二種可能的實(shí)施方式,其中,所述對(duì)特征文字信息進(jìn)行音頻錄制,得到第二音頻文件包括:提取所述第一音頻文件中的音頻特征信息;通過訓(xùn)練語料對(duì)預(yù)設(shè)機(jī)器學(xué)習(xí)模型進(jìn)行特征訓(xùn)練,得到所述第二音頻文件,其中,所述訓(xùn)練語料包括所述音頻特征信息和所述特征文字信息。
結(jié)合第一方面,本申請(qǐng)實(shí)施例提供了第一方面的第三種可能的實(shí)施方式,其中,所述對(duì)特征文字信息進(jìn)行音頻錄制,得到第二音頻文件包括:對(duì)所述特征文字信息中的每個(gè)特征文字進(jìn)行拼音拆解,得到每個(gè)所述特征文字的拼音字母和拼音聲調(diào);根據(jù)所述特征文字的拼音字母和拼音聲調(diào),生成對(duì)應(yīng)的所述第二音頻文件。
結(jié)合第一方面,本申請(qǐng)實(shí)施例提供了第一方面的第四種可能的實(shí)施方式,其中,所述根據(jù)目標(biāo)文字信息中的固定文字,得到第一音頻文件包括:識(shí)別并提取所述目標(biāo)文字信息中的固定文字,并將所述固定文字劃分為多個(gè)固定文字編組;判斷預(yù)設(shè)音頻數(shù)據(jù)庫中是否包含每個(gè)所述固定文字編組所對(duì)應(yīng)的第三音頻文件;如果判定所述預(yù)設(shè)音頻數(shù)據(jù)庫中包含有每個(gè)所述固定文字編組所對(duì)應(yīng)的第三音頻文件,則提取并合并所述第三音頻文件,得到所述第一音頻文件。
結(jié)合第一方面,本申請(qǐng)實(shí)施例提供了第一方面的第五種可能的實(shí)施方式,其中,所述將第一音頻文件和所述第二音頻文件進(jìn)行拼接,得到目標(biāo)音頻文件包括:根據(jù)所述目標(biāo)文字信息和預(yù)設(shè)劃分規(guī)則,得到所述第一音頻文件和所述第二音頻文件的拼接位置;根據(jù)所述拼接位置拼接所述第一音頻文件和所述第二音頻文件,得到目標(biāo)音頻文件。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海指旺信息科技有限公司,未經(jīng)上海指旺信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811318970.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語音分析或合成;語音識(shí)別;音頻分析或處理
G10L13-00 語音合成;文本-語音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語音的方法;語音合成設(shè)備
G10L13-06 .語音合成設(shè)備中使用的基本語音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語音合成參數(shù)的產(chǎn)生,例如語義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理
- 一種多媒體文件生成方法及其設(shè)備
- 一種音頻處理方法及移動(dòng)終端
- 音頻識(shí)別方法、裝置及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻播放方法及音頻播放裝置
- 合成音頻的方法和裝置
- 控制聲卡傳輸音頻的方法、裝置及存儲(chǔ)介質(zhì)
- 基于大數(shù)據(jù)的音頻評(píng)估方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 音頻數(shù)據(jù)處理方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 音頻播放方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





