[發明專利]語音的處理方法及裝置、存儲介質、電子設備有效
| 申請號: | 201910540082.1 | 申請日: | 2019-06-21 |
| 公開(公告)號: | CN110223673B | 公開(公告)日: | 2020-01-17 |
| 發明(設計)人: | 聶鐳;李睿;聶穎 | 申請(專利權)人: | 龍馬智芯(珠海橫琴)科技有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/26;G10L25/51 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 519000 廣東省珠海市橫琴新區環島*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 音素 語音識別 語音樣本 存儲介質 電子設備 收集效率 文本信息 預測模型 采集 相似度確定 低成本 相似度 預測 轉化 | ||
1.一種語音的處理方法,其特征在于,包括:
將語音輸入預先訓練好的音素預測模型,獲得所述語音對應的預測音素,具體包括:對語音進行分幀處理;將分幀后的每一幀語音輸入語音特征提取模塊,獲得所述每一幀語音的第一特征參數;將所述每一幀語音的第一特征參數輸入所述預先訓練好的音素預測模型,得到每一幀語音的音素預測結果;根據所述音素預測結果確定所述語音對應的預測音素;其中,所述音素預測結果包括:音素預測類別和音素預測向量;所述根據所述音素預測結果確定所述語音對應的預測音素包括:根據所述音素預測類別和所述音素預測向量確定所述語音對應的預測音素;
對所述預測音素與所述語音的標準音素進行音素相似度匹配,得到所述預測音素與所述語音的標準音素之間的音素相似度;
基于所述音素相似度確定所述語音是否滿足采集要求。
2.根據權利要求1所述的方法,其特征在于,根據所述音素預測類別和所述音素預測向量確定所述語音對應的預測音素包括:
將所述音素預測類別和所述音素預測向量輸入集束搜索模型或者貪婪搜索模型,得到所述語音對應的預測音素;或者,
根據每一類的所述音素預測類別,對其對應的所述音素預測向量進行求平均處理,得到所述語音對應的預測音素;或者,
將所述音素預測類別和所述音素預測向量進行聚類處理,得到所述語音對應的預測音素。
3.根據權利要求1或2所述的方法,其特征在于,所述音素預測模型包括語音特征提取模塊、卷積神經網絡、長短時記憶網絡和CTC解碼模塊。
4.一種語音的處理裝置,其特征在于,包括:
音素預測模塊,用于將語音輸入預先訓練好的音素預測模型,獲得所述語音對應的預測音素,具體包括:對語音進行分幀處理;將分幀后的每一幀語音輸入語音特征提取模塊,獲得所述每一幀語音的第一特征參數;將所述每一幀語音的第一特征參數輸入所述預先訓練好的音素預測模型,得到每一幀語音的音素預測結果;根據所述音素預測結果確定所述語音對應的預測音素;其中,所述音素預測結果包括:音素預測類別和音素預測向量;所述根據所述音素預測結果確定所述語音對應的預測音素包括:根據所述音素預測類別和所述音素預測向量確定所述語音對應的預測音素;
音素相似度計算模塊,用于對所述預測音素與所述語音的標準音素進行音素相似度匹配,得到所述預測音素與所述語音的標準音素之間的音素相似度;
判斷模塊,用于基于所述音素相似度確定所述語音是否滿足采集要求。
5.一種存儲介質,其特征在于,所述存儲介質中存儲有計算機程序,其中,所述計算機程序被設置為運行時執行所述權利要求1至3任一項中所述的方法。
6.一種電子設備,包括存儲器和處理器,其特征在于,所述存儲器中存儲有計算機程序,所述處理器被設置為運行所述計算機程序以執行所述權利要求1至3任一項中所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于龍馬智芯(珠海橫琴)科技有限公司,未經龍馬智芯(珠海橫琴)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910540082.1/1.html,轉載請聲明來源鉆瓜專利網。





