[發明專利]語音數據標注方法、系統、電子設備及存儲介質有效
| 申請號: | 202110242305.3 | 申請日: | 2021-03-05 |
| 公開(公告)號: | CN112599152B | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 張旺;李際朝;李軒;鄭才松;李青龍 | 申請(專利權)人: | 北京智慧星光信息技術有限公司 |
| 主分類號: | G10L25/60 | 分類號: | G10L25/60;G10L25/87;G10L21/02 |
| 代理公司: | 北京智宇正信知識產權代理事務所(普通合伙) 11876 | 代理人: | 李明卓 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 數據 標注 方法 系統 電子設備 存儲 介質 | ||
1.一種語音數據標注方法,其特征在于,包括:
獲取原始語音數據;
對所述原始語音數據進行篩選處理,得到篩選語音;
對所述篩選語音和預先存儲的朗讀文本進行匹配,得到相互對應的校對語音和校對文本;
對所述校對文本進行分詞處理,得到分詞文本;
對所述校對語音進行降噪處理,得到降噪語音;
對所述降噪語音進行特征的提取,得到語音特征;
根據VAD模型對所述語音特征進行檢測,得到降噪語音的VAD有效語音起始時間、VAD有效語音結尾時間和VAD有效語音持續時間;
根據所述分詞文本、所述語音特征和預存的發音字典,采用聲學模型進行語音強制對齊,得到對齊結果;
根據所述對齊結果得到字級別對齊時間、字級別時間間距、分段文本、分段文本起始時間、分段文本結尾時間和文本對齊時間;其中,同一個字的字結尾時間與字起始時間之間的差值是該字所對應的字級別對齊時間,下一個字起始時間與上一個字結尾時間的差值是相鄰字之間的字級別時間間距;
根據所述分詞文本得到所述分詞文本中的文本總字數;
根據所述VAD有效語音持續時間、所述文本對齊時間、所述字級別對齊時間和所述文本總字數得到語速、有效時間比和誤差字數;
其中,根據所述VAD有效語音持續時間、所述文本對齊時間、所述字級別對齊時間和所述文本總字數得到語速、有效時間比和誤差字數的步驟中,包括:
根據字級別對齊時間和文本總字數得到字級別平均時長,計算字級別平均時長的公式為:
其中,表示字級別平均時長,表示文本總字數,表示第i個字的字級別對齊時間,i取值范圍1≤ i ≤ N;
根據VAD有效語音持續時間和文本總字數得到語速,計算語速的公式為:
其中,表示語速,表示文本總字數,表示VAD有效語音持續時間;
根據VAD有效語音持續時間和文本對齊時間得到有效時間比,計算有效時間比的公式為:
其中,表示有效時間比,表示VAD有效語音持續時間,表示文本對齊時間;
根據VAD有效語音持續時間、字級別對齊時間和字級別平均時長得到誤差字數,計算誤差字數的公式為:
其中,表示誤差字數,表示VAD有效語音持續時間,表示第i個字的字級別對齊時間,i取值范圍1≤ i≤ N,表示字級別平均時長;
根據所述語速、有效時間比和誤差字數進行語音質量檢查,得到質量合格語音;其中,根據所述語速、有效時間比和誤差字數進行語音質量檢查,得到質量合格語音的步驟中,包括:
判斷所述語速是否在預設語速閾值的范圍內;若所述語速未在所述預設語速閾值的范圍內,則語音質量檢測不合格;若所述語速在所述預設語速閾值的范圍內,則判斷所述有效時間比是否在預設時間比的范圍內;若所述有效時間比未在預設時間比的范圍內,則語音質量檢測不合格;若所述有效時間比在預設時間比的范圍內,則判斷所述誤差字數是否在預設誤差字數的范圍內;若所述誤差字數未在預設誤差字數的范圍內,則語音質量檢測不合格;若所述誤差字數在預設誤差字數的范圍內,則語音質量檢測合格,得到質量合格語音;
按照所述分段文本起始時間、分段文本結尾時間對所述質量合格語音所對應的原始語音數據進行切分,得到與所述分段文本對應的切分語音,將所述分段文本和所述切分語音作為語音標注結果。
2.根據權利要求1所述的語音數據標注方法,其特征在于,根據所述對齊結果得到字級別對齊時間、字級別時間間距、分段文本、分段文本起始時間、分段文本結尾時間和文本對齊時間的步驟中,包括:
根據所述對齊結果得到字級別對齊時間和字級別時間間距;
根據預設字間距閾值和字級別時間間距對分詞文本進行分段,得到分段文本;
根據分段文本得到分段文本起始時間、分段文本結尾時間;
根據分段文本起始時間、分段文本結尾時間得到文本對齊時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智慧星光信息技術有限公司,未經北京智慧星光信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110242305.3/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





