[發(fā)明專利]語音信息處理方法、裝置、電子設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011229994.6 | 申請日: | 2020-11-06 |
| 公開(公告)號: | CN112349271A | 公開(公告)日: | 2021-02-09 |
| 發(fā)明(設(shè)計)人: | 邱學(xué)侃 | 申請(專利權(quán))人: | 北京樂學(xué)幫網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G10L13/033 | 分類號: | G10L13/033;G10L15/26;G10L21/0208;G10L15/16 |
| 代理公司: | 北京中知恒瑞知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11889 | 代理人: | 謝玲 |
| 地址: | 100094 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 信息處理 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
1.一種語音信息處理方法,其特征在于,包括:
接收原始語音數(shù)據(jù);
提取所述原始語音數(shù)據(jù)中的原始語音信息內(nèi)容;
根據(jù)所述原始語音信息內(nèi)容,確定與所述原始語音信息內(nèi)容相關(guān)的預(yù)設(shè)語音信息內(nèi)容以及預(yù)設(shè)語音風格;
將所述原始語音信息內(nèi)容、所述預(yù)設(shè)語音信息內(nèi)容和所述預(yù)設(shè)語音風格進行融合并輸出。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)語音風格包括多個預(yù)設(shè)語音風格;
所述根據(jù)所述原始語音信息內(nèi)容,確定與所述原始語音信息內(nèi)容相關(guān)的預(yù)設(shè)語音信息內(nèi)容以及預(yù)設(shè)語音風格,包括:
根據(jù)所述原始語音信息內(nèi)容,從數(shù)據(jù)庫中確定與所述原始語音信息內(nèi)容相關(guān)的預(yù)設(shè)語音信息內(nèi)容,并根據(jù)所述預(yù)設(shè)語音信息內(nèi)容所對應(yīng)的音頻特征,從所述多個預(yù)設(shè)語音風格中確定目標語音風格;
所述將所述原始語音信息內(nèi)容、所述預(yù)設(shè)語音信息內(nèi)容和所述預(yù)設(shè)語音風格進行融合并輸出,包括:
根據(jù)所述預(yù)設(shè)語音信息內(nèi)容完善所述原始語音信息內(nèi)容,并采用所述目標語音風格輸出完善后的所述原始語音信息內(nèi)容。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述語音風格包括音色、語調(diào)、韻律及重讀中的至少一種。
4.根據(jù)權(quán)利要求1-3任一所述的方法,其特征在于,所述提取所述原始語音數(shù)據(jù)中的原始語音信息內(nèi)容,包括:
將所述原始數(shù)據(jù)輸入到編碼神經(jīng)網(wǎng)絡(luò)中,以獲取表征所述原始語音信息內(nèi)容的原始語音信號表示向量;
所述根據(jù)所述原始語音信息內(nèi)容,確定與所述原始語音信息內(nèi)容相關(guān)的預(yù)設(shè)語音信息內(nèi)容以及預(yù)設(shè)語音風格,包括:
根據(jù)所述原始語音信號表示向量,確定與所述原始語音信號表示向量相關(guān)的目標語音信號表示向量以及預(yù)設(shè)風格向量;
所述將所述原始語音信息內(nèi)容、所述預(yù)設(shè)語音信息內(nèi)容和預(yù)設(shè)語音風格進行融合并輸出,包括:
將所述原始語音信號表示向量、所述目標語音信號表示向量和所述預(yù)設(shè)語音風格向量進行融合并輸出。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述將所述原始數(shù)據(jù)輸入到編碼神經(jīng)網(wǎng)絡(luò)中,以獲取表征所述原始語音信息內(nèi)容的原始語音信號表示向量,包括:
將所述原始語音數(shù)據(jù)轉(zhuǎn)換成梅爾譜向量;
將所述梅爾譜向量輸入到所述編碼神經(jīng)網(wǎng)絡(luò)中,以提取所述原始語音信號表示向量。
6.根據(jù)權(quán)利要求4或5所述的方法,其特征在于,所述提取所述原始語音數(shù)據(jù)中的原始語音信息內(nèi)容,還包括:
將所述原始語音數(shù)據(jù)輸入到所述編碼神經(jīng)網(wǎng)絡(luò)中,并對所述原始語音數(shù)據(jù)中所存在的噪音數(shù)據(jù)進行抑制,以得到輸出的原始語音信息內(nèi)容。
7.根據(jù)權(quán)利要求4-6任一所述的方法,其特征在于,所述將所述原始語音信號表示向量、所述目標語音信號表示向量和所述預(yù)設(shè)語音風格向量進行融合并輸出,包括:
將所述原始語音信號表示向量、所述目標語音信號表示向量和所述預(yù)設(shè)語音風格向量進行融合,以獲得目標語音數(shù)據(jù)向量;
將所述目標語音數(shù)據(jù)向量輸入到解碼神經(jīng)網(wǎng)絡(luò)中進行解碼,以獲得目標梅爾譜向量;
將所述目標梅爾譜向量轉(zhuǎn)換成目標語音數(shù)據(jù)進行輸出。
8.根據(jù)權(quán)利要求1-7任一所述的方法,其特征在于,所述接收原始語音數(shù)據(jù),包括:
接收教師端發(fā)出的用于作業(yè)點評的語音數(shù)據(jù)。
9.一種語音信息處理裝置,其特征在于,包括:
接收模塊,用于接收原始語音數(shù)據(jù);
提取模塊,用于提取所述原始語音數(shù)據(jù)中的原始語音信息內(nèi)容;
確定模塊,用于根據(jù)所述原始語音信息內(nèi)容,確定與所述原始語音信息內(nèi)容相關(guān)的預(yù)設(shè)語音信息內(nèi)容以及預(yù)設(shè)語音風格;
輸出模塊,用于將所述原始語音信息內(nèi)容、所述預(yù)設(shè)語音信息內(nèi)容和預(yù)設(shè)語音風格進行融合并輸出。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京樂學(xué)幫網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)北京樂學(xué)幫網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011229994.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





