[發(fā)明專利]語(yǔ)音交互過(guò)程中的多音字播報(bào)方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201611199610.4 | 申請(qǐng)日: | 2016-12-22 |
| 公開(kāi)(公告)號(hào): | CN106710585B | 公開(kāi)(公告)日: | 2019-11-08 |
| 發(fā)明(設(shè)計(jì))人: | 王鳴 | 申請(qǐng)(專利權(quán))人: | 云知聲(上海)智能科技有限公司 |
| 主分類號(hào): | G10L13/02 | 分類號(hào): | G10L13/02;G10L13/08;G10L15/02;G10L15/06 |
| 代理公司: | 上海唯源專利代理有限公司 31229 | 代理人: | 曾耀先 |
| 地址: | 200233 上海市徐*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 播報(bào) 多音字 反饋信息 音素信息 語(yǔ)音交互 語(yǔ)音信息 注音 文本信息 先驗(yàn)信息 音信息 準(zhǔn)確率 存儲(chǔ) 釋放 | ||
本發(fā)明提供了一種語(yǔ)音交互過(guò)程中的多音字播報(bào)方法及系統(tǒng),所述播報(bào)方法包括:獲取語(yǔ)音信息,識(shí)別所述語(yǔ)音信息;形成反饋信息;對(duì)所述反饋信息進(jìn)行注音;播報(bào)所述反饋信息;釋放先驗(yàn)信息。本發(fā)明通過(guò)將獲取的語(yǔ)音信息通過(guò)識(shí)別存儲(chǔ)為文本信息和音素信息,利用所述音素信息對(duì)反饋信息進(jìn)行注音再進(jìn)行播報(bào),能有效提高專有名詞中的多音字播報(bào)準(zhǔn)確率,改善多音字播報(bào)效果。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音交互技術(shù)領(lǐng)域,具體來(lái)說(shuō)涉及語(yǔ)音交互過(guò)程中的多音字播報(bào)方法及系統(tǒng)。
背景技術(shù)
語(yǔ)音合成,又稱文語(yǔ)轉(zhuǎn)換(Text To Speech)技術(shù),是一種能夠?qū)⑽淖中畔⑥D(zhuǎn)化為語(yǔ)音并進(jìn)行朗讀的技術(shù),其涉及聲學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科基礎(chǔ),是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù),解決的主要問(wèn)題是如何將文字信息轉(zhuǎn)化為可聽(tīng)的聲音信息。
在語(yǔ)音合成系統(tǒng)中,將文本信息轉(zhuǎn)換為聲音信息的過(guò)程為:首先需要對(duì)輸入的文本進(jìn)行處理,包括預(yù)處理、分詞、詞性標(biāo)注、多音字預(yù)測(cè)、韻律層級(jí)預(yù)測(cè)等,然后再通過(guò)聲學(xué)模型,預(yù)測(cè)各個(gè)單元對(duì)應(yīng)的聲學(xué)特征,最后利用聲學(xué)參數(shù)直接通過(guò)聲碼器合成聲音,或者從錄音詞庫(kù)中挑選單元進(jìn)行拼接,以生成與文本對(duì)應(yīng)的聲音信息。
其中多音字預(yù)測(cè)是整個(gè)語(yǔ)音合成系統(tǒng)的基礎(chǔ)之一,多音字朗讀的正確與否,極大地影響了聽(tīng)者對(duì)合成聲音語(yǔ)義的理解情況,如果多音字預(yù)測(cè)準(zhǔn)確率高,可以大大改善用戶體驗(yàn),使合成出來(lái)的語(yǔ)音易于理解,聽(tīng)起來(lái)也更佳自然流暢。
現(xiàn)有的多音字發(fā)音策略多采用如下方法:
若多音字可以和上下文組成詞語(yǔ),則按照固定搭配中的多音字來(lái)進(jìn)行播報(bào),例如重點(diǎn)、重新;若多音字以單字形式出現(xiàn),則基于大量數(shù)據(jù)訓(xùn)練模型的方法來(lái)決定發(fā)音,例如為人民服務(wù)、結(jié)果為零。在語(yǔ)音合成技術(shù)中,常用的大量訓(xùn)練數(shù)據(jù)模型的方法包括但不限于:CRF(條件隨機(jī)場(chǎng))方法,HMM(隱馬爾科夫模型)方法,決策樹(shù)方法等等。這些方法的特點(diǎn)是需要大量多音字的標(biāo)注信息來(lái)進(jìn)行訓(xùn)練。優(yōu)點(diǎn)是可以僅憑文本信息來(lái)預(yù)測(cè)多音字的發(fā)音,且對(duì)于出現(xiàn)在常見(jiàn)上下文語(yǔ)境中的多音字預(yù)測(cè)準(zhǔn)確率較高;缺點(diǎn)是對(duì)于訓(xùn)練數(shù)據(jù)中不包含的多音字或者是上下文語(yǔ)境中沒(méi)有包含過(guò)的多音字的處理能力很差。
但上述方法對(duì)于專有名詞比如人名、地名、公司名稱中的多音字播報(bào)效果較差。這是由于在語(yǔ)音交互過(guò)程中,用戶的提問(wèn)或指令信息中通常包含有多音字的發(fā)音,特別是對(duì)于人名、地名和公司名稱的發(fā)音,但是在語(yǔ)音交互系統(tǒng)中,卻將語(yǔ)音識(shí)別和語(yǔ)音合成分離開(kāi)來(lái),即語(yǔ)音識(shí)別中獲得的對(duì)應(yīng)文本信息的音素信息未被語(yǔ)音合成模塊利用,而語(yǔ)音合成信息在播報(bào)該專有名詞中的多音字時(shí),根據(jù)自身事先設(shè)定的策略進(jìn)行發(fā)音的選擇。
發(fā)明內(nèi)容
鑒于上述情況,本發(fā)明提供一種語(yǔ)音交互過(guò)程中的多音字播報(bào)方法及系統(tǒng),解決了現(xiàn)有的多音字發(fā)音策略對(duì)專有名詞(人名、地名、公司名稱)中的多音字播報(bào)效果較差的技術(shù)問(wèn)題,提高了專有名詞中的多音字播報(bào)準(zhǔn)確率。
為實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案是:
一種語(yǔ)音交互過(guò)程中的多音字播報(bào)方法,包括如下步驟:
a.獲取語(yǔ)音信息;
b.識(shí)別所述語(yǔ)音信息,通過(guò)語(yǔ)音識(shí)別得出所述語(yǔ)音信息對(duì)應(yīng)的文本信息和音素信息;
c.執(zhí)行所述文本信息的指令并形成相應(yīng)的反饋信息;
d.對(duì)反饋信息進(jìn)行注音:首先查找所述反饋信息中是否包括多音字,若查找到多音字,首先將反饋信息與所述文本信息進(jìn)行比對(duì),若比對(duì)成功,從所述音素信息中獲取發(fā)音并對(duì)反饋信息中的多音字進(jìn)行注音;若比對(duì)不成功,則依據(jù)大量數(shù)據(jù)訓(xùn)練模型的方法來(lái)對(duì)反饋信息中的多音字進(jìn)行注音;
e.對(duì)所述反饋信息進(jìn)行播報(bào)。
本發(fā)明的進(jìn)一步改進(jìn)在于,在所述步驟b中,還包括將所述文本信息和音素信息作為先驗(yàn)信息進(jìn)行存儲(chǔ)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于云知聲(上海)智能科技有限公司,未經(jīng)云知聲(上海)智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611199610.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L13-00 語(yǔ)音合成;文本-語(yǔ)音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語(yǔ)音的方法;語(yǔ)音合成設(shè)備
G10L13-06 .語(yǔ)音合成設(shè)備中使用的基本語(yǔ)音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語(yǔ)音合成參數(shù)的產(chǎn)生,例如語(yǔ)義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語(yǔ)音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理
- 語(yǔ)音播報(bào)裝置、使用了此裝置的導(dǎo)航系統(tǒng)及其采用的方法
- 多種語(yǔ)音播報(bào)方式的導(dǎo)航方法及導(dǎo)航裝置
- 播報(bào)處理方法及裝置
- 一種鑰匙鏈
- 語(yǔ)音播報(bào)方法及裝置
- 語(yǔ)音合成播報(bào)方法和裝置
- 一種播報(bào)信息的處理方法、裝置及存儲(chǔ)介質(zhì)
- 語(yǔ)音播報(bào)的方法及裝置
- 語(yǔ)音播報(bào)方法、設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 導(dǎo)航語(yǔ)音播報(bào)數(shù)據(jù)的生成方法、裝置、介質(zhì)及電子設(shè)備
- 文字輸入方法及文字輸入裝置
- 多音字預(yù)測(cè)方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 確定多音字發(fā)音的方法及裝置
- 多音字讀音的確定方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 多音字預(yù)測(cè)方法及消歧方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種多音字讀音消歧裝置及方法
- 多音字的識(shí)別方法、裝置、可讀介質(zhì)和電子設(shè)備
- 多音字處理方法及裝置、模型訓(xùn)練方法及裝置
- 多音字的注音方法及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 多音字處理方法及裝置
- 韻律修改裝置和方法及存儲(chǔ)有韻律修改程序的記錄介質(zhì)
- 語(yǔ)音合成信息編輯設(shè)備
- 語(yǔ)音合成裝置以及語(yǔ)音合成方法
- 一種語(yǔ)音合成方法及裝置
- 音頻生成方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及計(jì)算設(shè)備
- 語(yǔ)音數(shù)據(jù)處理方法和裝置及電子裝置
- 語(yǔ)音合成方法、裝置、存儲(chǔ)介質(zhì)和電子設(shè)備
- 一種語(yǔ)音數(shù)據(jù)分析方法及系統(tǒng)
- 頻譜圖匹配方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種融合詞匯及音素發(fā)音特征的情感語(yǔ)音合成方法及系統(tǒng)





