[發明專利]文本處理方法、裝置、電子設備及存儲介質在審
| 申請號: | 201811413110.5 | 申請日: | 2018-11-23 |
| 公開(公告)號: | CN109545183A | 公開(公告)日: | 2019-03-29 |
| 發明(設計)人: | 李永強;張冉;張征 | 申請(專利權)人: | 北京羽扇智信息科技有限公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L13/02;G06F17/27 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標字符串 輸入文本 替換 英文字符串 存儲介質 電子設備 替換處理 文本處理 文本分詞 映射關系 中英文 發音 句子發音 文本分割 音素發音 英文單詞 英文字母 中文字 自然度 中文 分詞 夾雜 語音 協調 | ||
本發明實施例公開了一種文本處理方法、裝置、電子設備及存儲介質。該方法包括:識別輸入文本中包括的至少一組英文字符串;如果確定英文字符串中包括不屬于英文單詞的目標字符串,則獲取與目標字符串中每個英文字母對應的替換字符對目標字符串進行替換處理,替換字符不屬于中文字;對替換處理后的輸入文本進行文本分割,得到至少一個文本分詞;根據中英文分詞與中英文發音之間的映射關系,以及替換字符與中文音素發音之間的映射關系,獲取輸入文本中的各文本分詞的發音。本發明實施例提供的技術方案,解決了現有技術中處理中文中夾雜著由字母組成的特殊名詞的句子發音不協調的問題,增加了語音的自然度。
技術領域
本發明實施例涉及信息處理技術領域,特別是涉及一種文本處理方法、裝置、電子設備及存儲介質。
背景技術
TTS(Text To Speech,語音合成)是一種將文字轉換成人類自然語言的技術,被廣泛應用在車機導航播報、商家的在線客服、智能機器人語言交互等方面。
TTS系統主要分為前端和后端,其中前端主要完成分析文本的工作,將字素轉換成音素,主要包括文本正規化、斷句、生成發音等工作。TTS的后端主要完成語音的合成,主要包括韻律預測、原始音頻合成等工作。TTS系統的好壞主要由其合成的語音是否更加符合人類的自然語言決定,其常用的標準為MOS(Mean Opinion Score,平均意見得分)測試,該值越高說明系統的效果越好。TTS系統合成普通話的難點之一是處理中文中夾雜著由字母組成的特殊名詞的句式,比如“打開QQ聊天”。TTS系統處理這種句式的方案是先對該句子進行分割“打開/QQ/聊天”,然后用英文方式處理“QQ”。
現有技術雖然在處理中英混雜的句子效果較好,但由于字母組成的特殊名詞并不是英文單詞,使用該方案有時存在不理想的效果,造成句子發音不協調,降低MOS值。
發明內容
有鑒于此,本發明實施例提供了一種文本處理方法、裝置、電子設備及存儲介質,主要目的在于解決中文中夾雜特殊的字母名詞的句子發音不協調的問題。
為了解決上述問題,本發明實施例主要提供如下技術方案:
第一方面,本發明實施例提供了一種文本處理方法,該方法包括:
識別輸入文本中包括的至少一組英文字符串;
如果確定所述英文字符串中包括不屬于英文單詞的目標字符串,則獲取與所述目標字符串中每個英文字母對應的替換字符對所述目標字符串進行替換處理,所述替換字符不屬于中文字;
對替換處理后的輸入文本進行文本分割,得到至少一個文本分詞;
根據中英文分詞與中英文發音之間的映射關系,以及替換字符與中文音素發音之間的映射關系,獲取所述輸入文本中的各文本分詞的發音。
可選的,在獲取輸入文本中包括的至少一組英文字符串之前,還包括:
獲取中文習慣發音的標準英文字符串集合;
獲取與所述標準英文字符串集合匹配的多個標準英文字母,并建立替換字符與各所述標準英文字母之間的映射關系;
使用中文音素發音對各所述標準英文字母進行標注,并根據標注結果,建立替換字符與各所述中文音素發音之間的映射關系。
可選的,所述替換字符包括:日文片假名。
可選的,對所述輸入文本中英文字符串的識別操作以及對目標字符串的替換處理操作在文本的正規化處理階段實現。
可選的,確定所述英文字符串中包括不屬于英文單詞的目標字符串,包括:
將所述至少一組英文字符串分別在標準英文字典進行查找,并將在所述標準英文字典中未查找到的英文字符串作為所述目標字符串。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京羽扇智信息科技有限公司,未經北京羽扇智信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811413110.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語音合成集成電路
- 下一篇:一種基于語音校準的背誦檢測方法及電子設備





