[發(fā)明專利]文本處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 201811413110.5 | 申請(qǐng)日: | 2018-11-23 |
| 公開(公告)號(hào): | CN109545183A | 公開(公告)日: | 2019-03-29 |
| 發(fā)明(設(shè)計(jì))人: | 李永強(qiáng);張冉;張征 | 申請(qǐng)(專利權(quán))人: | 北京羽扇智信息科技有限公司 |
| 主分類號(hào): | G10L13/08 | 分類號(hào): | G10L13/08;G10L13/02;G06F17/27 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100080 北京市海*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 目標(biāo)字符串 輸入文本 替換 英文字符串 存儲(chǔ)介質(zhì) 電子設(shè)備 替換處理 文本處理 文本分詞 映射關(guān)系 中英文 發(fā)音 句子發(fā)音 文本分割 音素發(fā)音 英文單詞 英文字母 中文字 自然度 中文 分詞 夾雜 語(yǔ)音 協(xié)調(diào) | ||
1.一種文本處理方法,其特征在于,包括:
識(shí)別輸入文本中包括的至少一組英文字符串;
如果確定所述英文字符串中包括不屬于英文單詞的目標(biāo)字符串,則獲取與所述目標(biāo)字符串中每個(gè)英文字母對(duì)應(yīng)的替換字符對(duì)所述目標(biāo)字符串進(jìn)行替換處理,所述替換字符不屬于中文字;
對(duì)替換處理后的輸入文本進(jìn)行文本分割,得到至少一個(gè)文本分詞;
根據(jù)中英文分詞與中英文發(fā)音之間的映射關(guān)系,以及替換字符與中文音素發(fā)音之間的映射關(guān)系,獲取所述輸入文本中的各文本分詞的發(fā)音。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在獲取輸入文本中包括的至少一組英文字符串之前,還包括:
獲取中文習(xí)慣發(fā)音的標(biāo)準(zhǔn)英文字符串集合;
獲取與所述標(biāo)準(zhǔn)英文字符串集合匹配的多個(gè)標(biāo)準(zhǔn)英文字母,并建立替換字符與各所述標(biāo)準(zhǔn)英文字母之間的映射關(guān)系;
使用中文音素發(fā)音對(duì)各所述標(biāo)準(zhǔn)英文字母進(jìn)行標(biāo)注,并根據(jù)標(biāo)注結(jié)果,建立替換字符與各所述中文音素發(fā)音之間的映射關(guān)系。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述替換字符包括:日文片假名。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述輸入文本中英文字符串的識(shí)別操作以及對(duì)目標(biāo)字符串的替換處理操作在文本的正規(guī)化處理階段實(shí)現(xiàn)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,確定所述英文字符串中包括不屬于英文單詞的目標(biāo)字符串,包括:
將所述至少一組英文字符串分別在標(biāo)準(zhǔn)英文字典進(jìn)行查找,并將在所述標(biāo)準(zhǔn)英文字典中未查找到的英文字符串作為所述目標(biāo)字符串。
6.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,其特征在于,在識(shí)別輸入文本中包括的至少一組英文字符串之前,還包括:
獲取用戶的交互語(yǔ)音,并根據(jù)所述交互語(yǔ)音生成交互文本;
獲取與所述交互文本對(duì)應(yīng)的反饋文本作為所述輸入文本;
在獲取所述輸入文本中的各文本分詞的發(fā)音之后,還包括:向所述用戶播放所述輸入文本的各文本分詞的發(fā)音。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,在獲取用戶的交互語(yǔ)音之后,還包括:
根據(jù)所述交互語(yǔ)音,確定用戶的交互情緒,并獲取與所述交互情緒匹配的反饋情緒;
向所述用戶播放所述輸入文本的各文本分詞的發(fā)音,包括:
按照所述反饋情緒,向所述用戶播放所述輸入文本的各文本分詞的發(fā)音。
8.一種文本處理裝置,其特征在于,包括:
英文字符串識(shí)別模塊,用于識(shí)別輸入文本中包括的至少一組英文字符串;
目標(biāo)字符串替換模塊,用于如果確定所述英文字符串中包括不屬于英文單詞的目標(biāo)字符串,則獲取與所述目標(biāo)字符串中每個(gè)英文字母對(duì)應(yīng)的替換字符對(duì)所述目標(biāo)字符串進(jìn)行替換處理,所述替換字符不屬于中文字;
輸入文本分割模塊,用于對(duì)替換處理后的輸入文本進(jìn)行文本分割,得到至少一個(gè)文本分詞;
發(fā)音獲取模塊,用于根據(jù)中英文分詞與中英文發(fā)音之間的映射關(guān)系,以及替換字符與中文音素發(fā)音之間的映射關(guān)系,獲取所述輸入文本中的各文本分詞的發(fā)音。
9.一種電子設(shè)備,其特征在于,包括:
至少一個(gè)處理器;
以及與所述處理器連接的至少一個(gè)存儲(chǔ)器、總線;其中,
所述處理器、存儲(chǔ)器通過(guò)所述總線完成相互間的通信;
所述處理器用于調(diào)用所述存儲(chǔ)器中的程序指令,以執(zhí)行權(quán)利要求1至權(quán)利要求7中任一項(xiàng)所述的文本處理方法。
10.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令使所述計(jì)算機(jī)執(zhí)行權(quán)利要求1至權(quán)利要求7中任一項(xiàng)所述的文本處理方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京羽扇智信息科技有限公司,未經(jīng)北京羽扇智信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811413110.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L13-00 語(yǔ)音合成;文本-語(yǔ)音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語(yǔ)音的方法;語(yǔ)音合成設(shè)備
G10L13-06 .語(yǔ)音合成設(shè)備中使用的基本語(yǔ)音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語(yǔ)音合成參數(shù)的產(chǎn)生,例如語(yǔ)義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語(yǔ)音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理





