[發明專利]確定多音字發音的方法、裝置和系統在審
| 申請號: | 201610424566.6 | 申請日: | 2016-06-15 |
| 公開(公告)號: | CN107515850A | 公開(公告)日: | 2017-12-26 |
| 發明(設計)人: | 孟澤豫;雷鳴;薜少飛 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司11134 | 代理人: | 宋子良 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 多音字 發音 方法 裝置 系統 | ||
技術領域
本發明涉及語音通信領域,具體而言,涉及一種確定多音字發音的方法、裝置和系統。
背景技術
語音合成服務(text to speech,TTS)中很重要的一個模塊是對用戶輸入的文本做準確分析后得到其對應的發音序列(字音轉換),之后由此合成出聲音文件。漢字中的多音字約有1千個,常見多音字約200-300字,對于這些多音字的發音預測是否準確直接影響了語音合成系統的準確性與可懂度。
多音字的發音預測是一個典型的分類問題,即針對某個多音字及其對應的上下文找出其最有可能的發音。分類問題通常由特征選擇和模型建模兩個部分組成。多音字消歧任務的特征選擇需要較高程度地依賴經驗,常用的特征包括多音字的前后字、前后詞、前后詞的詞長、前后詞的詞性、前后關鍵字、多音字在句中的相對位置等。模型建模已有的比較成熟的方案有最大熵模型(ME)、條件隨機場(CRF)等。這兩種模型都是近年來在自然語言處理中廣泛使用的統計模型,并且有比較成熟的開源工具包。最大熵模型是從滿足所有約束的概率分布中選取條件熵最大的概率分布;CRF模型主要是用于處理序列標注問題,在給定觀測序列的情況下,對整個序列的聯合概率建立一個統一的概率模型,應用于多音字消歧問題也取得了較好的成果,即將輸入文本作為觀測序列,著重關注目標多音字發音的預測。
但是,現有的最大熵模型、條件隨機場模型需要高度依賴特征工程和建模人員的經驗,并且當特征不斷增多時訓練過程會變的非常耗時,模型也會變得非常大。應用于離線的環境(比如手機在無網絡連接的狀態下)時還需大幅剪裁模型尺寸,這在一定程度上又會影響到模型的性能。并且,在很多場景下,多音字的發音可能會依賴于距離較遠的字,如“項目負責人為伊萬諾夫娜”(為讀2聲),“項目負責人為伊萬諾夫娜舉行了隆重的歡迎儀式”(為讀4聲)。這兩個例子中,在前半句完全相同的情況下,“為”字的發音很大程度上是由后面是否有“舉行”這樣的詞來決定的,中間的人名可以被替換成任何可能的情況,對“為”字的發音幾乎起不到決定性作用。而現有的模型考慮到訓練開銷和模型尺寸,一般只會向前后看1-2個字,很難利用到如此長距離的上下文信息。同時,現有方法可預測標簽(即多音字可能的發音)的數量不可過多(通常只有3-5個),標簽數量過多不僅增加訓練開銷,還會影響到模型性能。因此這些方法需要對每個字單獨訓練相應的模型。TTS服務通常會對容易產生歧義的多音字用多音字消歧模型來完成消歧任務,這樣的多音字一般會有30-50個之多,這也意味著,現有方法需要單獨訓練數十個模型,并在服務端應用這數十個模型進行多音字的讀音預測,這給TTS服務引擎帶來一定復雜度。
針對現有技術中的確定多音字發音的方法需要對每個字單獨訓練相應的模型,導致模型規模龐大,解碼復雜度高的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種確定多音字發音的方法、裝置和系統,以至少解決現有技術中的確定多音字發音的方法需要對每個字單獨訓練相應的模型,導致模型規模龐大,解碼復雜度高的技術問題。
根據本發明實施例的一個方面,提供了一種確定多音字發音的方法,包括:獲取包含了多音字的文本;使用多音字消歧模型對包含了多音字的文本進行解碼,得到文本中的多音字的每種讀音的發音概率,其中,通過神經網絡模型進行特征訓練得到多音字消歧模型;根據多音字的每種讀音的發音概率預測多音字在文本的上下文中的讀音。
根據本發明實施例的另一方面,還提供了一種確定多音字發音的裝置,包括:獲取模塊,用于獲取包含了多音字的文本;解碼模塊,用于使用多音字消歧模型對包含了多音字的文本進行解碼,得到文本中的多音字的每種讀音的發音概率,其中,通過神經網絡模型進行特征訓練得到多音字消歧模型;預測模塊,用于根據多音字的每種讀音的發音概率預測多音字在文本的上下文中的讀音。
根據本發明實施例的另一方面,還提供了一種確定多音字發音的系統,包括:輸入裝置,用于發送包含了多音字的文本;處理器,與輸入裝置連接,用于使用多音字消歧模型對包含了多音字的文本進行解碼,得到文本中的多音字的每種讀音的發音概率,并根據多音字的每種讀音的發音概率預測多音字在文本的上下文中的讀音,其中,通過神經網絡模型進行特征訓練得到多音字消歧模型;輸出裝置,與處理器連接,用于顯示或播放多音字在文本的上下文中的讀音。
在本發明實施例中,獲取包含了多音字的文本,使用多音字消歧模型對包含了多音字的文本進行解碼,得到文本中的多音字的每種讀音的發音概率,根據多音字的每種讀音的發音概率預測多音字在文本的上下文中的讀音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610424566.6/2.html,轉載請聲明來源鉆瓜專利網。





