[發(fā)明專利]用于確定音素發(fā)音時(shí)長的方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201710911991.2 | 申請(qǐng)日: | 2017-09-29 |
| 公開(公告)號(hào): | CN107705782B | 公開(公告)日: | 2021-01-05 |
| 發(fā)明(設(shè)計(jì))人: | 張黃斌 | 申請(qǐng)(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號(hào): | G10L13/02 | 分類號(hào): | G10L13/02;G10L13/10;G06F40/205;G06K9/62 |
| 代理公司: | 北京英賽嘉華知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11204 | 代理人: | 王達(dá)佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 確定 音素 發(fā)音 方法 裝置 | ||
1.一種用于確定音素發(fā)音時(shí)長的方法,其特征在于,所述方法包括:
獲取待合成語音對(duì)應(yīng)的文本;
提取所述文本的文本特征;
將所述文本特征導(dǎo)入預(yù)先建立的第一時(shí)長確定模型,生成發(fā)音時(shí)長類型序列,其中,所述發(fā)音時(shí)長類型序列中的發(fā)音時(shí)長類型與所述文本對(duì)應(yīng)的音素序列中的音素對(duì)應(yīng),所述第一時(shí)長確定模型用于表征文本特征與發(fā)音時(shí)長類型序列之間的對(duì)應(yīng)關(guān)系;
根據(jù)所生成的發(fā)音時(shí)長類型序列和預(yù)先設(shè)置的對(duì)應(yīng)關(guān)系信息,確定所述文本對(duì)應(yīng)的音素序列中各個(gè)音素的發(fā)音時(shí)長,其中,所述對(duì)應(yīng)關(guān)系信息用于指示發(fā)音時(shí)長類型與發(fā)音時(shí)長的之間的對(duì)應(yīng)關(guān)系。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一時(shí)長確定模型是通過以下步驟得到的:
獲取第一訓(xùn)練樣本集,其中,第一訓(xùn)練樣本是關(guān)聯(lián)設(shè)置有音素的發(fā)音時(shí)長的音頻信息;
利用所述第一訓(xùn)練樣本集訓(xùn)練第一神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場模型,得到第一時(shí)長確定模型,其中,第一神經(jīng)網(wǎng)絡(luò)的輸出是條件隨機(jī)場模型的輸入。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一神經(jīng)網(wǎng)絡(luò)的輸出包括所述音素序列中的每個(gè)音素對(duì)應(yīng)的概率序列,其中,該音素對(duì)應(yīng)的概率序列中的概率為該音素的發(fā)音時(shí)長屬于預(yù)先設(shè)置的發(fā)音時(shí)長類型的概率。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述發(fā)音時(shí)長類型是通過以下步驟得到的:
確定音素的最短發(fā)音時(shí)長和最長發(fā)音時(shí)長;
將所述最短發(fā)音時(shí)長取對(duì)數(shù)得到第一對(duì)數(shù)值,并且將所述最長發(fā)音時(shí)長取對(duì)數(shù)得到第二對(duì)數(shù)值;
確定所述第二對(duì)數(shù)值與所述第一對(duì)數(shù)值之間的差值,并且確定所述差值與預(yù)設(shè)數(shù)目的比值;
生成包括預(yù)設(shè)數(shù)目個(gè)發(fā)音時(shí)長類型的發(fā)音時(shí)長類型序列,其中,對(duì)于所述發(fā)音時(shí)長序列中的每個(gè)發(fā)音時(shí)長類型,該發(fā)音時(shí)長類型對(duì)應(yīng)的發(fā)音時(shí)長是根據(jù)該發(fā)音時(shí)長類型在所述發(fā)音時(shí)長類型序列的位次信息和所述比值確定的。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述第一訓(xùn)練樣本集是通過以下步驟得到的:
對(duì)于所述發(fā)音時(shí)長類型序列中的每個(gè)發(fā)音時(shí)長類型對(duì)應(yīng)的發(fā)音時(shí)長,確定初始樣本集中是否包括關(guān)聯(lián)設(shè)置有該發(fā)音時(shí)長的樣本,其中,初始樣本是關(guān)聯(lián)設(shè)置有音素的發(fā)音時(shí)長的音頻信息;響應(yīng)于確定所述初始樣本集中不包括關(guān)聯(lián)設(shè)置有該發(fā)音時(shí)長的樣本,調(diào)整關(guān)聯(lián)設(shè)置有與該發(fā)音時(shí)長差值最小的發(fā)音時(shí)長的樣本,得到該發(fā)音時(shí)長的樣本;將經(jīng)調(diào)整得到的樣本加入所述初始樣本集,得到所述第一訓(xùn)練樣本集。
6.根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的方法,其特征在于,所述方法還包括:
將所述文本特征導(dǎo)入預(yù)先建立的第二時(shí)長確定模型,生成所述文本對(duì)應(yīng)的第二發(fā)音時(shí)長序列,其中,所述第二發(fā)音時(shí)長序列包括所述文本對(duì)應(yīng)的音素序列中各個(gè)音素的發(fā)音時(shí)長,所述第二時(shí)長時(shí)長確定模型用于表征文本特征與第二發(fā)音時(shí)長序列之間的對(duì)應(yīng)關(guān)系。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述第二時(shí)長確定模型是通過以下步驟得到的:
獲取第二訓(xùn)練樣本集,第二訓(xùn)練樣本是關(guān)聯(lián)設(shè)置有音素的發(fā)音時(shí)長的音頻信息;
利用所述第二訓(xùn)練樣本集訓(xùn)練第二神經(jīng)網(wǎng)絡(luò),得到第二時(shí)長確定模型。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述根據(jù)所生成發(fā)音時(shí)長類型序列和預(yù)先設(shè)置的對(duì)應(yīng)關(guān)系信息,確定所述文本對(duì)應(yīng)的音素序列中各個(gè)音素的發(fā)音時(shí)長,包括:
根據(jù)所生成的發(fā)音時(shí)長類型序列和所述對(duì)應(yīng)關(guān)系信息,生成第一發(fā)音時(shí)長序列;
基于所述第一發(fā)音時(shí)長序列和所述第二發(fā)音時(shí)長序列,確定所述文本對(duì)應(yīng)的音素序列中各個(gè)音素的發(fā)音時(shí)長。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710911991.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語音分析或合成;語音識(shí)別;音頻分析或處理
G10L13-00 語音合成;文本-語音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語音的方法;語音合成設(shè)備
G10L13-06 .語音合成設(shè)備中使用的基本語音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語音合成參數(shù)的產(chǎn)生,例如語義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理
- 通過基本音素合成英文單字的語音數(shù)據(jù)的系統(tǒng)及方法
- 音素誤標(biāo)注的檢測(cè)方法和裝置
- 一種音素評(píng)分的確定方法及系統(tǒng)
- 語音數(shù)據(jù)處理方法和裝置及電子裝置
- 語譜圖匹配方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 發(fā)音插入錯(cuò)誤檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種發(fā)音檢測(cè)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 錯(cuò)誤音素識(shí)別方法及裝置
- 一種音頻質(zhì)量評(píng)估方法及裝置
- 一種音頻處理方法、裝置、設(shè)備及介質(zhì)
- 互動(dòng)式矯正發(fā)音的裝置與方法
- 可視化發(fā)音教學(xué)方法及裝置
- 一種英語發(fā)音質(zhì)量評(píng)價(jià)系統(tǒng)
- 發(fā)音詞典生成方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 一種基于機(jī)器學(xué)習(xí)的口語發(fā)音檢錯(cuò)與糾正系統(tǒng)
- 一種發(fā)音教學(xué)方法、裝置、系統(tǒng)、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 發(fā)音訓(xùn)練與教學(xué)系統(tǒng)
- 一種基于音頻指紋的發(fā)音評(píng)測(cè)方法及終端
- 一種音質(zhì)美發(fā)音準(zhǔn)的漸變型發(fā)音孔嗩吶
- 音源裝置





