[發明專利]音頻數據的采集方法及系統在審
| 申請號: | 201811588420.0 | 申請日: | 2018-12-25 |
| 公開(公告)號: | CN109493869A | 公開(公告)日: | 2019-03-19 |
| 發明(設計)人: | 祝伊軍;趙恒藝 | 申請(專利權)人: | 蘇州思必馳信息科技有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G11B20/10 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 方挺;黃謙 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 錄音音頻 語音 采集 錄音文本 任務標識 任務信息 音頻數據 審核 錄音 輔助識別 漢語拼音 錄音內容 文本匹配 音頻錄音 音頻信息 語音識別 自動錄音 方言 文本 申請 語言 | ||
本發明公開一種音頻數據的采集方法及系統包括:步驟S101,設置語音任務信息;所述語音任務信息中包括:語音任務標識及錄音任務文本。步驟S102,根據所述設置語音任務的語音任務標識獲取當前錄音音頻。步驟S103,對所述當前錄音音頻進行語音識別,獲取當前錄音文本。步驟S104,若所述當前錄音文本與所述錄音任務文本匹配,則對所述當前錄音音頻進行采集。本申請通過對錄音內容進行識別,自動錄音音頻信息進行了審核,考慮到方言等語言偏差所造成的不能實現審核的因素,本發明中還采用通過對漢語拼音進行輔助識別的方式,對音頻錄音進行審核,不僅提高了錄音音頻采集的準確性,同時也提高了錄音音頻采集的效率。
技術領域
本發明屬于音頻信息的處理及應用的技術領域,尤其涉及音頻數據的采集方法及系統。
背景技術
采集音頻數據的產品有各類付費錄音采集app的錄音技術及天貓精靈等智能語音產品的語音識別技術。音頻數據是語音技術研究的重要生產資料。合法采集錄音數據,通常的做法有兩個,一個通過尋找固定群體,提供錄音app和相應的文本,用戶按照要求錄音完成并人工審核通過后獲取一定的酬勞。另一種類似于天貓精靈,通過語音識別與用戶交互,并采集分析用戶音頻數據。
付費錄音采集app,需要人工審核錄音,數據采集樣本少,周期長。智能語音產品的語音識別,采用通用語音識別技術,且樣本隨機性高,無法按要求采集精準音頻數據(如采集語音:你好小馳,需要快速和慢速各十遍)。付費錄音app,只有錄音技術,沒有語音識別自動審核當前錄音的準確度。智能語音產品的語音識別,是通用的語音識別技術,無法針對特定關鍵字的語音識別結果,進行審核,并實時調整通過率。
本行業從業人員為解決這些缺陷,采取的是結合錄音app和語音交互產品的特點,通過語音技能或者游戲的方式,引導用戶說出想要的關鍵字,但是如果一旦用戶故意說錯或者環境嘈雜,即使音頻質量不合格,也無法糾錯,讓用戶重新錄音,否則容易使用戶失去興趣。這種方式雖然在錄音效率和錄音質量上有所平衡,但音頻質量仍然不能很好的達到訓練所需標準。我們根據過去的經驗,放棄利用語音交互產品大規模采集音頻的方法,用新的角度,結合錄音app錄音精準的優點,改進了人工審核效率低的問題。
發明內容
本發明實施例提供一種音頻數據的采集方法及系統,用于至少解決上述技術問題之一。
第一方面,本發明實施例提供了一種音頻數據的采集方法,所述方法包括:
步驟S101,設置語音任務信息;所述語音任務信息中包括:語音任務標識及錄音任務文本;
步驟S102,根據所述設置語音任務的語音任務標識獲取當前錄音音頻;
步驟S103,對所述當前錄音音頻進行語音識別,獲取當前錄音文本;
步驟S104,若所述當前錄音文本與所述錄音任務文本匹配,則對所述當前錄音音頻進行采集。
基于所述語音任務信息中包括口音類型信息;所述口音類型信息包括:方言信息及普通話信息。
基于所述步驟S101中還包括:
根據所述錄音文本及方言類型獲取所述錄音文本對應的漢語拼音序列。
基于所述步驟S103中還包括:對所述當前錄音音頻進行語音識別,獲取當前錄音漢語拼音序列。
基于,所述步驟S104中還包括:
若當前錄音漢語拼音序列與所述錄音文本對應的漢語拼音序列匹配,則對所述當前錄音音頻進行采集。
基于所述步驟S104中還包括:
生成用戶記錄信息,所述用戶記錄信息中包括,錄音采集信息、客戶獎勵信息。
基于所述步驟S104中還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州思必馳信息科技有限公司,未經蘇州思必馳信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811588420.0/2.html,轉載請聲明來源鉆瓜專利網。





