[發(fā)明專利]一種語音相似度檢測方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201710080153.5 | 申請(qǐng)日: | 2017-02-14 |
| 公開(公告)號(hào): | CN106935248B | 公開(公告)日: | 2021-02-05 |
| 發(fā)明(設(shè)計(jì))人: | 趙志宏;葉生 | 申請(qǐng)(專利權(quán))人: | 廣州孩教圈信息科技股份有限公司 |
| 主分類號(hào): | G10L25/51 | 分類號(hào): | G10L25/51;G10L25/60;G10L25/18;G10L25/24;G10L21/0208 |
| 代理公司: | 廣州三環(huán)專利商標(biāo)代理有限公司 44202 | 代理人: | 麥小嬋;郝傳鑫 |
| 地址: | 510000 廣東省廣州市越*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 相似 檢測 方法 裝置 | ||
本發(fā)明公開了一種語音相似度檢測方法,包括:采集語音的音頻數(shù)據(jù);從所述音頻數(shù)據(jù)中提取音頻特征參數(shù);所述音頻特征參數(shù)包括頻譜系數(shù)和聲音強(qiáng)度;將所述音頻特征參數(shù)與預(yù)先提取的原始音頻的音頻特征參數(shù)進(jìn)行對(duì)比,獲取所述語音與所述原始音頻之間的相似度。相應(yīng)的,本發(fā)明還公開了一種語音相似度檢測裝置。采用本發(fā)明實(shí)施例,能夠提高語音相似度檢測的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種語音相似度檢測方法及裝置。
背景技術(shù)
現(xiàn)有技術(shù)中,通常采用的語音相似度評(píng)分方法基本原理是對(duì)原始音頻和輸入音頻數(shù)據(jù)分別進(jìn)行頻譜分析,得到語音的頻譜特征,然后對(duì)兩個(gè)頻譜特征進(jìn)行比較,從而得出兩個(gè)語音相似度的分值。但是,這種方法存在著難以精確區(qū)分音調(diào)變化,對(duì)音量大小和不同人體的聲帶特色差異很敏感,模仿跟讀的完整度對(duì)評(píng)分結(jié)果影響很大等缺點(diǎn),從而導(dǎo)致語音相似度評(píng)分準(zhǔn)確率低。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提出一種語音相似度檢測方法及裝置,能夠提高語音相似度檢測的準(zhǔn)確率。
本發(fā)明實(shí)施例提供一種語音相似度檢測方法,包括:
采集語音的音頻數(shù)據(jù);
對(duì)所述語音的音頻數(shù)據(jù)進(jìn)行預(yù)處理;所述預(yù)處理包括預(yù)濾波、高通濾波、低通濾波、采樣、量化、語音端點(diǎn)檢測處理;
從預(yù)處理后的音頻數(shù)據(jù)中提取音頻特征參數(shù);所述音頻特征參數(shù)包括基音軌跡、文本語音匹配相關(guān)特征參數(shù)、頻譜系數(shù)和每個(gè)音頻幀的聲音強(qiáng)度;
將所述音頻特征參數(shù)與預(yù)先提取的原始音頻的音頻特征參數(shù)進(jìn)行對(duì)比,獲取所述語音與所述原始音頻之間的相似度。
進(jìn)一步地,所述基音軌跡的提取方法具體包括:
從所述音頻數(shù)據(jù)中計(jì)算獲取基音序列;
從所述基音序列中獲取候選拐點(diǎn);
將曲率值大于預(yù)設(shè)閾值的候選拐點(diǎn)作為拐點(diǎn);
獲取所有相鄰兩個(gè)拐點(diǎn)的線段,并保存到折線序列中;
計(jì)算所有相鄰兩個(gè)線段之間的夾角值,并保存到夾角序列中;
將所述折線序列和所述夾角序列中的數(shù)據(jù)表征為所述基音軌跡。
進(jìn)一步地,所述頻譜系數(shù)包括但不限于:梅爾倒頻譜系數(shù)或倒傅里葉頻譜系數(shù);
所述梅爾倒頻譜系數(shù)的提取方法具體包括:
將所述音頻數(shù)據(jù)等比例劃分為至少一個(gè)音頻幀;
對(duì)所述至少一個(gè)音頻幀進(jìn)行離散變換和濾波,獲得至少一個(gè)自然對(duì)數(shù);
分別計(jì)算所述至少一個(gè)自然對(duì)數(shù)的離散余弦變換,并去除變換后的第一個(gè)參數(shù),將剩余的參數(shù)作為所述梅爾倒頻譜系數(shù)。
進(jìn)一步地,所述每個(gè)音頻幀的聲音強(qiáng)度的提取方法具體包括:
將所述音頻數(shù)據(jù)劃分為N個(gè)音頻幀;其中,N≥1;
計(jì)算每個(gè)音頻幀的平均聲音強(qiáng)度;
根據(jù)所述每個(gè)音頻幀的平均聲音強(qiáng)度,計(jì)算所述每個(gè)音頻幀的聲音強(qiáng)度。
進(jìn)一步地,所述平均聲音強(qiáng)度的計(jì)算公式為n=0,1,2,...,N-1,其中,AveMag(n)為音頻幀n的平均聲音強(qiáng)度,M為音頻幀n的采樣點(diǎn)個(gè)數(shù),Sn(m)為音頻幀n中的采樣點(diǎn)m的信號(hào)幅度值;
所述聲音強(qiáng)度的計(jì)算公式為其中,Mag(n)為音頻幀n的聲音強(qiáng)度,Min為所有音頻幀中的最小平均聲音強(qiáng)度,Max為所有音頻幀中的最大平均聲音強(qiáng)度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州孩教圈信息科技股份有限公司,未經(jīng)廣州孩教圈信息科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710080153.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





