[發明專利]一種語音相似度檢測方法及裝置有效
| 申請號: | 201710080153.5 | 申請日: | 2017-02-14 |
| 公開(公告)號: | CN106935248B | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 趙志宏;葉生 | 申請(專利權)人: | 廣州孩教圈信息科技股份有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/60;G10L25/18;G10L25/24;G10L21/0208 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 麥小嬋;郝傳鑫 |
| 地址: | 510000 廣東省廣州市越*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 相似 檢測 方法 裝置 | ||
1.一種語音相似度檢測方法,其特征在于,包括:
采集語音的音頻數據;
對所述語音的音頻數據進行預處理;所述預處理具體步驟依次如下:預濾波、高通濾波、低通濾波、采樣、量化、語音端點檢測處理;
從預處理后的音頻數據中提取音頻特征參數;所述音頻特征參數包括基音軌跡、文本語音匹配相關特征參數、頻譜系數和每個音頻幀的聲音強度;所述每個音頻幀的聲音強度的提取方法具體包括:
將所述預處理后的音頻數據劃分為N個音頻幀;其中,N≥1;
計算每個音頻幀的平均聲音強度;
根據所述每個音頻幀的平均聲音強度,計算所述每個音頻幀的聲音強度;
其中,所述聲音強度的計算公式為Mag(n)為音頻幀n的聲音強度,AveMag(n)為音頻幀n的平均聲音強度,Min為所有音頻幀中的最小平均聲音強度,Max為所有音頻幀中的最大平均聲音強度;
將所述音頻特征參數與預先提取的原始音頻的音頻特征參數進行對比,獲取所述語音與所述原始音頻之間的相似度。
2.如權利要求1所述的語音相似度檢測方法,其特征在于,所述基音軌跡的提取方法具體包括:
從所述預處理后的音頻數據中計算獲取基音序列;
從所述基音序列中獲取候選拐點;
將曲率值大于預設閾值的候選拐點作為拐點;
獲取所有相鄰兩個拐點的線段,并保存到折線序列中;
計算所有相鄰兩個線段之間的夾角值,并保存到夾角序列中;
將所述折線序列和所述夾角序列中的數據表征為所述基音軌跡。
3.如權利要求1所述的語音相似度檢測方法,其特征在于,所述頻譜系數包括但不限于:梅爾倒頻譜系數或倒傅里葉頻譜系數;
所述梅爾倒頻譜系數的提取方法具體包括:
將所述預處理后的音頻數據等比例劃分為至少一個音頻幀;
對所述至少一個音頻幀進行離散變換和濾波,獲得至少一個自然對數;
分別計算所述至少一個自然對數的離散余弦變換,并去除變換后的第一個參數,將剩余的參數作為所述梅爾倒頻譜系數。
4.如權利要求1所述的語音相似度檢測方法,其特征在于,所述計算每個音頻幀的平均聲音強度,具體計算方式如下:
其中,AveMag(n)為音頻幀n的平均聲音強度,M為音頻幀n的采樣點個數,Sn(m)為音頻幀n中的采樣點m的信號幅度值。
5.如權利要求2所述的語音相似度檢測方法,其特征在于,在所述將所述音頻特征參數與預先提取的原始音頻的音頻特征參數進行對比之前,還包括:
采用平移公式,對提取的所述基音軌跡進行線性平移;
所述平移公式如下:
其中,f′2(x)為所述預處理后的音頻數據平移后的基音軌跡,f2(x)為從所述預處理后的音頻數據中提取的基音軌跡,f1(k)為原始音頻的基音軌跡,N為基音軌跡的長度。
6.如權利要求1所述的語音相似度檢測方法,其特征在于,所述將所述音頻特征參數與預先提取的原始音頻的音頻特征參數進行對比,獲取所述語音與所述原始音頻之間的相似度,具體包括:
根據所述語音的音頻特征參數和所述原始音頻的音頻特征參數,計算所述語音與所述原始音頻之間的相關系數;
根據所述相關系數,獲取所述語音與所述原始音頻之間的相似度;
其中,所述相關系數包括歐式距離、皮爾森相關系數或似然分數值;
其中,所述歐式距離的計算公式如下:
其中,D為語音與原始音頻之間的歐氏距離,Amn為M×N的第一矩陣,Bmn為M×N的第二矩陣。
7.如權利要求1至6任一項所述的語音相似度檢測方法,其特征在于,在所述獲取所述語音與所述原始音頻之間的相似度之后,還包括:
根據所述語音與所述原始音頻之間的相似度,計算所述語音的得分。
8.一種語音相似度檢測裝置,其特征在于,包括:
采集模塊,用于采集語音的音頻數據;
預處理模塊,用于將音頻數據經過預濾波、高通濾波、低通濾波、采樣、量化、語音端點檢測處理獲得預處理后的音頻數據;
參數提取模塊,用于從所述預處理后的音頻數據中提取音頻特征參數;所述音頻特征參數包括基音軌跡、文本語音匹配相關特征參數、頻譜系數和每個音頻幀的聲音強度;所述參數提取模塊具體包括:音頻幀劃分單元,用于將所述預處理后的音頻數據劃分為N個音頻幀;其中,N≥1;計算單元,用于計算每個音頻幀的平均聲音強度;以及,聲音強度獲取單元,用于根據所述每個音頻幀的平均聲音強度,計算所述每個音頻幀的聲音強度;其中,所述聲音強度的計算公式為Mag(n)為音頻幀n的聲音強度,AveMag(n)為音頻幀n的平均聲音強度,Min為所有音頻幀中的最小平均聲音強度,Max為所有音頻幀中的最大平均聲音強度;
對比模塊,用于將所述音頻特征參數與預先提取的原始音頻的音頻特征參數進行對比,獲取所述語音與所述原始音頻之間的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州孩教圈信息科技股份有限公司,未經廣州孩教圈信息科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710080153.5/1.html,轉載請聲明來源鉆瓜專利網。





