[發(fā)明專利]語音訓(xùn)練數(shù)據(jù)生成方法、裝置、設(shè)備及可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201910432661.4 | 申請日: | 2019-05-23 |
| 公開(公告)號: | CN110310626A | 公開(公告)日: | 2019-10-08 |
| 發(fā)明(設(shè)計)人: | 彭捷 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L25/78 |
| 代理公司: | 北京市京大律師事務(wù)所 11321 | 代理人: | 劉挽瀾 |
| 地址: | 518033 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音訓(xùn)練數(shù)據(jù) 音頻文件 音頻片段 可讀存儲介質(zhì) 文本片段 原文文本 靜音點(diǎn) 數(shù)據(jù)采集技術(shù) 靜音點(diǎn)檢測 通用模型 關(guān)聯(lián) | ||
1.一種語音訓(xùn)練數(shù)據(jù)生成方法,其特征在于,所述語音訓(xùn)練數(shù)據(jù)生成方法包括以下步驟:
獲取音頻文件以及所述音頻文件對應(yīng)的原文文本;
對所述音頻文件進(jìn)行靜音點(diǎn)檢測,確定所述音頻文件的靜音點(diǎn);
根據(jù)所述靜音點(diǎn),將所述音頻文件拆分為若干個音頻片段文件;
通過通用模型對所述若干個音頻片段進(jìn)行識別,得到每個音頻片段對應(yīng)的識別結(jié)果;
從所述原文文本中確定所述識別結(jié)果對應(yīng)的文本片段;
將所述識別結(jié)果對應(yīng)的音頻片段以及文本片段關(guān)聯(lián)為一組語音訓(xùn)練數(shù)據(jù),得到若干組語音訓(xùn)練數(shù)據(jù)。
2.如權(quán)利要求1所述的語音訓(xùn)練數(shù)據(jù)生成方法,其特征在于,所述對所述音頻文件進(jìn)行靜音點(diǎn)檢測,確定所述音頻文件的靜音點(diǎn)的步驟包括:
計算所述音頻文件中每一語音幀的能熵比;
將能熵比小于預(yù)設(shè)閾值的語音幀標(biāo)記為靜音點(diǎn)。
3.如權(quán)利要求1所述的語音訓(xùn)練數(shù)據(jù)生成方法,其特征在于,所述從所述原文文本中確定所述識別結(jié)果對應(yīng)的文本片段的步驟包括:
對所述原文文本進(jìn)行切分,得到多個原文文本片段;
從所述多個原文文本片段中,確定所述識別結(jié)果對應(yīng)的文本片段。
4.如權(quán)利要求3所述的語音訓(xùn)練數(shù)據(jù)生成方法,其特征在于,所述對所述原文文本進(jìn)行切分,得到多個原文文本片段的步驟包括:
檢測所述原文文本中是否存在目標(biāo)字符;
若所述原文文本中存在目標(biāo)字符,則將所述目標(biāo)字符轉(zhuǎn)換成其對應(yīng)的中文字符,得到新的原文文本;
基于所述新的原文文本中的標(biāo)點(diǎn)符號,對所述新的原文文本進(jìn)行切分,得到多個原文文本片段。
5.如權(quán)利要求3所述的語音訓(xùn)練數(shù)據(jù)生成方法,其特征在于,所述從所述多個原文文本片段中,確定所述識別結(jié)果對應(yīng)的文本片段的步驟包括:
計算所述識別結(jié)果與每個原文文本片段的編輯距離,得到所述識別結(jié)果對應(yīng)的多個編輯距離;
從所述多個編輯距離中確定所述識別結(jié)果對應(yīng)的最小編輯距離;
檢測所述最小編輯距離是否小于預(yù)設(shè)閾值;
若最小編輯距離小于預(yù)設(shè)閾值,則將所述最小編輯距離對應(yīng)的原文文本片段,作為所述識別結(jié)果對應(yīng)的文本片段。
6.如權(quán)利要求1至5中任一項(xiàng)所述的語音訓(xùn)練數(shù)據(jù)生成方法,其特征在于,在所述將所述識別結(jié)果對應(yīng)的音頻片段以及文本片段關(guān)聯(lián)為一組語音訓(xùn)練數(shù)據(jù),得到若干組語音訓(xùn)練數(shù)據(jù)的步驟之后,還包括:
獲取所述音頻文件的場景標(biāo)簽;
基于所述場景標(biāo)簽對所述若干組語音訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)識。
7.如權(quán)利要求6所述的語音訓(xùn)練數(shù)據(jù)生成方法,其特征在于,所述基于所述場景標(biāo)簽對所述若干組語音訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)識的步驟包括:
獲取所述場景標(biāo)簽的標(biāo)識符,將所述標(biāo)識符添加至所述若干組語音訓(xùn)練數(shù)據(jù)的屬性信息中。
8.一種語音訓(xùn)練數(shù)據(jù)生成裝置,其特征在于,所述語音訓(xùn)練數(shù)據(jù)生成裝置包括:
獲取模塊,用于獲取音頻文件以及所述音頻文件對應(yīng)的原文文本;
靜音點(diǎn)檢測模塊,用于對所述音頻文件進(jìn)行靜音點(diǎn)檢測,確定所述音頻文件的靜音點(diǎn);
拆分模塊,用于根據(jù)所述靜音點(diǎn),將所述音頻文件拆分為若干個音頻片段文件;
識別模塊,用于通過通用模型對所述若干個音頻片段進(jìn)行識別,得到每個音頻片段對應(yīng)的識別結(jié)果;
確定模塊,用于從所述原文文本中確定所述識別結(jié)果對應(yīng)的文本片段;
關(guān)聯(lián)模塊,用于將所述識別結(jié)果對應(yīng)的音頻片段以及文本片段關(guān)聯(lián)為一組語音訓(xùn)練數(shù)據(jù),得到若干組語音訓(xùn)練數(shù)據(jù)。
9.一種語音訓(xùn)練數(shù)據(jù)生成設(shè)備,其特征在于,所述語音訓(xùn)練數(shù)據(jù)生成設(shè)備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運(yùn)行的語音訓(xùn)練數(shù)據(jù)生成程序,所述語音訓(xùn)練數(shù)據(jù)生成程序被所述處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的語音訓(xùn)練數(shù)據(jù)生成方法的步驟。
10.一種可讀存儲介質(zhì),其特征在于,所述可讀存儲介質(zhì)上存儲有語音訓(xùn)練數(shù)據(jù)生成程序,所述語音訓(xùn)練數(shù)據(jù)生成程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的語音訓(xùn)練數(shù)據(jù)生成方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910432661.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 遠(yuǎn)場語音聲學(xué)模型訓(xùn)練方法及系統(tǒng)
- 一種語音處理方法、裝置和電子設(shè)備
- 一種語音數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)
- 語音合成模型的訓(xùn)練方法、語音合成方法、裝置、設(shè)備及存儲介質(zhì)
- 一種語音識別方法及裝置
- 語音合成模型的訓(xùn)練方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)
- 語音轉(zhuǎn)換的方法及訓(xùn)練方法、智能裝置和存儲介質(zhì)
- 目標(biāo)語音提取方法、裝置、設(shè)備、介質(zhì)和聯(lián)合訓(xùn)練方法
- 語音識別模型訓(xùn)練方法、語音識別方法及相關(guān)裝置
- 用于識別連續(xù)和分立語音的語音識別系統(tǒng)
- 具有中間反應(yīng)層的有限次播放光學(xué)設(shè)備以及制造該設(shè)備的方法
- 用于有限播放光學(xué)設(shè)備的反應(yīng)性物質(zhì)及其制法
- 存儲裝置和信息處理系統(tǒng)
- 用于興趣點(diǎn)識別的系統(tǒng)和方法
- 網(wǎng)絡(luò)配置方法、配置文件集生成方法、裝置及網(wǎng)絡(luò)設(shè)備
- 電子裝置及其操作方法
- 用于將操作系統(tǒng)存儲在計算機(jī)可讀介質(zhì)上的BIOS代碼
- 多存儲介質(zhì)并存的配置方法、裝置和系統(tǒng)
- 相機(jī)組同步曝光控制方法及系統(tǒng)、計算機(jī)可讀存儲介質(zhì)、相機(jī)組控制系統(tǒng)
- 炒鍋翻炒方法、計算機(jī)可讀存儲介質(zhì)及智能炒菜機(jī)





