[發明專利]語音訓練數據生成方法、裝置、設備及可讀存儲介質在審
| 申請號: | 201910432661.4 | 申請日: | 2019-05-23 |
| 公開(公告)號: | CN110310626A | 公開(公告)日: | 2019-10-08 |
| 發明(設計)人: | 彭捷 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L25/78 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 劉挽瀾 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音訓練數據 音頻文件 音頻片段 可讀存儲介質 文本片段 原文文本 靜音點 數據采集技術 靜音點檢測 通用模型 關聯 | ||
本發明涉及數據采集技術領域,公開了一種語音訓練數據生成方法、裝置、設備及可讀存儲介質,語音訓練數據生成方法包括:獲取音頻文件以及所述音頻文件對應的原文文本;對所述音頻文件進行靜音點檢測,確定所述音頻文件的靜音點;根據所述靜音點,將所述音頻文件拆分為若干個音頻片段文件;通過通用模型對所述若干個音頻片段進行識別,得到每個音頻片段對應的識別結果;從所述原文文本中確定所述識別結果對應的文本片段;將所述識別結果對應的音頻片段以及文本片段關聯為一組語音訓練數據,得到若干組語音訓練數據。通過本發明,大大提高了生成語音訓練數據的效率,且降低了生成成本。
技術領域
本發明涉及數據采集技術領域,尤其涉及語音訓練數據生成方法、裝置、設備及可讀存儲介質。
背景技術
近年來,基于深度神經元網絡的語音識別技術已經越來越成熟,該技術需要利用大量語音數據訓練深度神經元網絡從而獲取語音識別模型。
而目前普遍采用人工錄制以及人工標注的方式,得到用于訓練深度神經元網絡的語音數據,人工工作量大、語音數據獲取周期長,使得訓練性能優良的語音識別模型需要付出較高的代價。
發明內容
本發明的主要目的在于提供一種語音訓練數據生成方法、裝置、設備及可讀存儲介質,旨在解決現有技術中生成大批量語音訓練數據的效率低且成本高的技術問題。
為實現上述目的,本發明提供一種語音訓練數據生成方法,所述語音訓練數據生成方法包括以下步驟:
獲取音頻文件以及所述音頻文件對應的原文文本;
對所述音頻文件進行靜音點檢測,確定所述音頻文件的靜音點;
根據所述靜音點,將所述音頻文件拆分為若干個音頻片段文件;
通過通用模型對所述若干個音頻片段進行識別,得到每個音頻片段對應的識別結果;
從所述原文文本中確定所述識別結果對應的文本片段;
將所述識別結果對應的音頻片段以及文本片段關聯為一組語音訓練數據,得到若干組語音訓練數據。
可選的,所述對所述音頻文件進行靜音點檢測,確定所述音頻文件的靜音點的步驟包括:
計算所述音頻文件中每一語音幀的能熵比;
將能熵比小于預設閾值的語音幀標記為靜音點。
可選的,所述從所述原文文本中確定所述識別結果對應的文本片段的步驟包括:
對所述原文文本進行切分,得到多個原文文本片段;
從所述多個原文文本片段中,確定所述識別結果對應的文本片段。
可選的,所述對所述原文文本進行切分,得到多個原文文本片段的步驟包括:
檢測所述原文文本中是否存在目標字符;
若所述原文文本中存在目標字符,則將所述目標字符轉換成其對應的中文字符,得到新的原文文本;
基于所述新的原文文本中的標點符號,對所述新的原文文本進行切分,得到多個原文文本片段。
可選的,所述從所述多個原文文本片段中,確定所述識別結果對應的文本片段的步驟包括:
計算所述識別結果與每個原文文本片段的編輯距離,得到所述識別結果對應的多個編輯距離;
從所述多個編輯距離中確定所述識別結果對應的最小編輯距離;
檢測所述最小編輯距離是否小于預設閾值;
若最小編輯距離小于預設閾值,則將所述最小編輯距離對應的原文文本片段,作為所述識別結果對應的文本片段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910432661.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語音斷句方法及系統
- 下一篇:一種用于檢測真人用戶的方法及系統





