[發明專利]語音數據標注方法、系統、電子設備及存儲介質有效
| 申請號: | 202110242305.3 | 申請日: | 2021-03-05 |
| 公開(公告)號: | CN112599152B | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 張旺;李際朝;李軒;鄭才松;李青龍 | 申請(專利權)人: | 北京智慧星光信息技術有限公司 |
| 主分類號: | G10L25/60 | 分類號: | G10L25/60;G10L25/87;G10L21/02 |
| 代理公司: | 北京智宇正信知識產權代理事務所(普通合伙) 11876 | 代理人: | 李明卓 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 數據 標注 方法 系統 電子設備 存儲 介質 | ||
本發明公開了一種語音數據標注方法、系統、電子設備及存儲介質,該方法先對原始語音數據進行篩選,對篩選語音進行朗讀文本的匹配得到校對語音和校對文本;對校對文本進行分詞得到分詞文本;對校對語音進行降噪得到降噪語音,將特征提取后的語音特征輸入VAD模型中得到降噪語音的VAD有效語音持續時間;采用聲學模型對分詞文本進行語音強制對齊得到字級別對齊時間、字級別時間間距、分段文本、分段文本起始時間、結尾時間和文本對齊時間;根據上述多個時間確定語速、有效時間比和誤差字數,進行語音質量檢查;按照分段文本起始時間和結尾時間對原始語音進行切分,將分段文本和切分語音作為語音標注結果;實現了自動獲取質量合格的語音標注文本。
技術領域
本發明涉及語音數據處理領域,具體涉及到一種語音數據標注方法、系統、電子設備及存儲介質。
背景技術
隨著語音技術的快速發展,對于模型訓練所需的可靠、高質量的語音標注數據的需求日益增加,特別是在語音識別領域,短時間得到大量可靠標注數據快速建立模型難度較大。語音標注數據需求有四個特點:數據量大、標注質量高、多場景、多語種等,傳統純人工的語音數據標注方法,難以適合目前的語音生產需求。因此,如何自動獲得語音標注文本并保證語音標注文本的質量成為亟待解決的問題。
發明內容
有鑒于此,本發明實施例提供了一種語音數據標注方法、系統、電子設備及存儲介質,以實現自動獲取質量合格的語音標注文本。
為此,本發明實施例提供了如下技術方案:
根據第一方面,本發明實施例提供了一種語音數據標注方法,包括:獲取原始語音數據;對所述原始語音數據進行篩選處理,得到篩選語音;對所述篩選語音和預先存儲的朗讀文本進行匹配,得到相互對應的校對語音和校對文本;對所述校對文本進行分詞處理,得到分詞文本;對所述校對語音進行降噪處理,得到降噪語音;對所述降噪語音進行特征的提取,得到語音特征;根據VAD模型對所述語音特征進行檢測,得到降噪語音的VAD有效語音起始時間、VAD有效語音結尾時間和VAD有效語音持續時間;根據所述分詞文本、所述語音特征和預存的發音字典,采用聲學模型進行語音強制對齊,得到對齊結果;根據所述對齊結果得到字級別對齊時間、字級別時間間距、分段文本、分段文本起始時間、分段文本結尾時間和文本對齊時間;根據所述分詞文本得到所述分詞文本中的文本總字數;根據所述VAD有效語音持續時間、所述文本對齊時間、所述字級別對齊時間和所述文本總字數得到語速、有效時間比和誤差字數;根據所述語速、有效時間比和誤差字數進行語音質量檢查,得到質量合格語音;按照所述分段文本起始時間、分段文本結尾時間對所述質量合格語音所對應的原始語音數據進行切分,得到與所述分段文本對應的切分語音,將所述分段文本和所述切分語音作為語音標注結果。
可選地,根據所述對齊結果得到字級別對齊時間、字級別時間間距、分段文本、分段文本起始時間、分段文本結尾時間和文本對齊時間的步驟中,包括:根據所述對齊結果得到字級別對齊時間和字級別時間間距;根據預設字間距閾值和字級別時間間距對分詞文本進行分段,得到分段文本;根據分段文本得到分段文本起始時間、分段文本結尾時間;根據分段文本起始時間、分段文本結尾時間得到文本對齊時間。
可選地,根據預設字間距閾值和字級別時間間距對分詞文本進行分段,得到分段文本的步驟中,包括:獲取預設字間距閾值,所述預設字間距閾值根據有效語音前后靜音段時間和語音采集停頓時間確定;判斷所述字級別時間間距是否小于所述預設字間距閾值;若所述字級別時間間距小于所述預設字間距閾值,則不對相鄰的字進行段落切分;若所述字級別時間間距大于或者等于所述預設字間距閾值,則對相鄰的字進行段落切分。
可選地,根據所述VAD有效語音持續時間、所述文本對齊時間、所述字級別對齊時間和所述文本總字數得到語速、有效時間比和誤差字數的步驟中,包括:根據字級別對齊時間和文本總字數得到字級別平均時長,計算字級別平均時長的公式為:
其中,表示字級別平均時長,表示文本總字數,表示第i個字的字級別對齊時間,i取值范圍1≤ i ≤ N;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智慧星光信息技術有限公司,未經北京智慧星光信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110242305.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





