[發(fā)明專利]一種基于語義注意力機制的多音字發(fā)音糾錯方法及裝置有效
| 申請?zhí)枺?/td> | 202110266709.6 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN112908293B | 公開(公告)日: | 2022-08-02 |
| 發(fā)明(設計)人: | 陳晉音;葉林輝 | 申請(專利權)人: | 浙江工業(yè)大學 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/04;G10L13/08;G10L25/18;G10L25/30;G06F40/232;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天勤知識產(chǎn)權代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 注意力 機制 多音字 發(fā)音 糾錯 方法 裝置 | ||
本發(fā)明公開了一種基于語義注意力機制的多音字發(fā)音糾錯方法及裝置,包括:獲取文本數(shù)據(jù),并對文本數(shù)據(jù)進行編碼得到字嵌入向量矩陣;構建包含編碼器、語義注意力機制單元和解碼器的語音合成模型并進行參數(shù)優(yōu)化,其中,編碼器用于將輸入的字嵌入向量矩陣編碼成字嵌入特征矩陣,語義注意力機制單元用于將每個字嵌入向量按照各自權重拆分成疑問部分、關鍵部分以及價值部分這三部分后,依據(jù)相鄰字組的三部分計算相鄰字組的相關性,以組成關聯(lián)矩陣;解碼器對輸入的字嵌入向量矩陣和關聯(lián)矩陣進行解碼處理,輸出梅爾線性譜;利用參數(shù)優(yōu)化后的語義合成模型對文本數(shù)據(jù)進行語音合成,輸出梅爾線性譜,依據(jù)梅爾線性譜計算得到多音字發(fā)音糾錯的語音合成結果。
技術領域
本發(fā)明屬于深度學習算法及信息安全研究領域,具體涉及一種基于語義注意力機制的多音字發(fā)音糾錯方法及裝置。
背景技術
語音識別技術和語音合成技術是建立一個有聽和講能力的設備所必需的兩項關鍵技術,這兩項技術可以使電腦或者移動設備具有類似于人一樣的說話和聽懂人說話的能力,是90年代以來信息產(chǎn)業(yè)的重要競爭市場。
早期的語音合成技術采用拼接合成的方法進行語音合成,該方法根據(jù)輸入文本分析后的信息,從指定的語音庫中挑選預先錄制好的語音單元,進行必要的調整之后,拼接在一起實現(xiàn)語音合成。然而這種方法合成的語音存在連續(xù)語音單元之間發(fā)聲不連續(xù)的問題。統(tǒng)計參數(shù)語音合成是另一種早期的語音合成方法,統(tǒng)計參數(shù)模型從語音中提取與發(fā)聲關系密切的特征,如基頻,頻譜特征等,對提取到的語音特征進行聲學建模,并以訓練得到的模型為基礎構建語音合成系統(tǒng)。但是由于統(tǒng)計參數(shù)模型在對語音特征進行提取時,需要對原始語音進行變換,該過程容易造成信息的丟失,并且由于統(tǒng)計參數(shù)模型難以重現(xiàn)聲音的細節(jié),導致合成的語音通常聽起來沉悶且不自然。
由于深度神經(jīng)網(wǎng)絡的優(yōu)異性能,語音合成技術已從早期的語音合成方法轉變?yōu)槔蒙疃壬窠?jīng)網(wǎng)絡進行語音合成。并且深度神經(jīng)網(wǎng)絡使得語音生成技術已經(jīng)在手機移動端,語音導航,智能家居等領域中有了各種應用。如在移動端,語音生成技術已經(jīng)可以根據(jù)文本生成相應的語音,實現(xiàn)與機主的人機交互,再比如一些諸如故事自動化閱讀,喜馬拉雅FM等手機應用已經(jīng)得到了廣泛的應用,移動閱讀因其便捷性逐漸成為主流閱讀方式。在語音導航應用中,語音生成技術可以根據(jù)文本生成相應的導航語音,為司機提供路線導航服務。在智能家居設備中,語音生成技術與語音識別技術相結合,從而實現(xiàn)了與主人的語音交互,并且可以識別主人的語音,從而控制一些智能家居設備。因此語音合成技術已經(jīng)有了廣泛的應用場景。
雖然語音合成技術已經(jīng)在手機移動端,語音導航等領域有了各種應用,生成語音的質量已經(jīng)非常高,但是在中文的語音合成中,由于中文中存在多音字,語音合成技術在處理中文的多音字發(fā)音時,仍然會發(fā)生錯誤,不能正確處理一些多音字的發(fā)音,如高德地圖導航在導航階段提醒司機系好安全帶時,生成的語音會將“系安全帶”中的“系”字錯誤的發(fā)音為“xì”安全帶。在故事自動化閱讀的場景中,語音合成技術只能根據(jù)文本合成相應的語音,但是沒有考慮中文發(fā)音中的多音字發(fā)音的問題,如將“一撮毛”中的“撮”字發(fā)音為“cuō”,而實際發(fā)音為“zuǒ”。這給用戶帶來了不好的體驗,特別是兒童在學習字詞發(fā)音的時候,這些錯誤的發(fā)音可能導致兒童錯誤的學習字詞的發(fā)音,給今后的更正工作帶來困難。也就是說,現(xiàn)在的語音合成技術在合成語音時沒有關注多音字的前后字,如系安全帶在生成語音時關注到了“安全帶”三個字則可以將“系”正確發(fā)音為“xì”。
基于以上語音合成技術在一些場景下不能正確處理多音字發(fā)音的問題,迫切地需要研究一種基于語義注意力機制的多音字發(fā)音糾錯方法,來解決語音合成模型在語音合成過程中,無法正確合成多音字的問題。
發(fā)明內容
鑒于語音合成技術中,語音合成模型在一些場景下無法正確處理多音字的發(fā)音,錯誤的合成一些多音字音頻的問題,本發(fā)明的目的是提供一種基于語義注意力機制的多音字發(fā)音糾錯方法及裝置,通過使語音合成模型在合成語音時,與前后的字詞關聯(lián)起來,避免語音合成模型錯誤的合成多音字。
為實現(xiàn)上述發(fā)明目的,本發(fā)明提供以下技術方案:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業(yè)大學,未經(jīng)浙江工業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110266709.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





