[發(fā)明專利]一種基于語譜圖時間差分的語音音節(jié)數(shù)估計方法在審
| 申請?zhí)枺?/td> | 201911331869.3 | 申請日: | 2019-12-21 |
| 公開(公告)號: | CN111063371A | 公開(公告)日: | 2020-04-24 |
| 發(fā)明(設(shè)計)人: | 賀前華;蘇健彬;嚴(yán)海康;詹俊瑤 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號: | G10L25/87 | 分類號: | G10L25/87;G10L25/30 |
| 代理公司: | 廣州粵高專利商標(biāo)代理有限公司 44102 | 代理人: | 何淑珍;江裕強 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語譜圖 時間差 語音 音節(jié) 估計 方法 | ||
本發(fā)明提供了一種基于語譜圖時間差分的語音音節(jié)數(shù)估計方法,所述方法步驟包括:將語音信號的語譜圖X,通過一個M階圖像后向平滑濾波器得到模糊形式語譜圖Xsupgt;*/supgt;,對其進行N階時間差分以及M階圖像后向平滑,計算出N階差分圖S;對N階差分圖的每一列進行頻率區(qū)域選擇性求和,以獲得初步濁音起始邊界統(tǒng)計特征,然后通過該特征以及邊界時間間隔限制Gsubgt;1/subgt;得到初步濁音起始邊界;使N階差分圖的低頻部分與圖案P進行局部圖案匹配得到其圖案特征圖Ssupgt;*/supgt;,通過圖案特征圖計算出匹配濁音起始邊界;結(jié)合初步濁音起始邊界和匹配濁音起始邊界,通過一個邊界時間間隔限制Gsubgt;2/subgt;,得到最終的濁音起始邊界,最后計算出音節(jié)數(shù)K。本發(fā)明具有可解釋性,成本低,有著廣闊的應(yīng)用前景。
技術(shù)領(lǐng)域
本發(fā)明涉及音頻處理技術(shù)領(lǐng)域,具體涉及一種基于語譜圖時間差分的語音音節(jié)數(shù)估計方法。
背景技術(shù)
音節(jié)數(shù)估計作為語速估計的基礎(chǔ),在情感識別、醫(yī)學(xué)中評估失語癥語言流利性等領(lǐng)域有著廣闊的應(yīng)用前景。語速作為情感表達(dá)的一種重要的韻律手段,是情感識別中的重要特征。若能精確地估計出單位時間內(nèi)的音節(jié)數(shù),則能提高語速估計的準(zhǔn)確度,從而提高情感識別的性能。同時,在基于匹配模型的語音識別中,音節(jié)數(shù)估計不但可提升匹配速度,而且可以提高識別精度。目前的音節(jié)數(shù)估計方法可分為兩大類,一類是基于人工神經(jīng)網(wǎng)絡(luò)(Artificial?neural?network,ANN)的方法,另一類是基于音節(jié)檢測的方法。
其中,采用人工神經(jīng)網(wǎng)絡(luò)方法(專利:語速估計模型的訓(xùn)練、語速估計方法、裝置、設(shè)備及介質(zhì))需要大量的人工標(biāo)記數(shù)據(jù),會耗費極大的成本,且在訓(xùn)練數(shù)據(jù)不足時會表現(xiàn)出準(zhǔn)確率低、魯棒性差、識別與說話人相關(guān)等缺點。而且人工神經(jīng)網(wǎng)絡(luò)缺乏解釋性,相當(dāng)于一個黑匣子,無法在實際應(yīng)用過程中出現(xiàn)問題時或需要及時調(diào)整時做出靈活性變動。因此需要一種具有解釋性的、低成本的音節(jié)數(shù)估計方法。
另一類基于音節(jié)檢測的方法中,又分為包絡(luò)檢測方法與傳統(tǒng)統(tǒng)計模型方法。其中,包絡(luò)檢測方法(雙門限算法在藏語語音音節(jié)分割中的應(yīng)用分析卓嘎,2015)通過提取語音信號的幅度包絡(luò),利用檢測包絡(luò)的谷點來進行音節(jié)邊界的檢測。這種方法的問題在于:在實際的連續(xù)語音信號中,信號的幅度包絡(luò)中存在非常多的谷點,但并不是所有的谷點都對應(yīng)音節(jié)邊界,而目前又缺乏一種準(zhǔn)確度高、魯棒性強的算法來判斷某一谷點是否是音節(jié)的邊界,因此在實際應(yīng)用過程中僅采取幅度包絡(luò)這一特征來檢測音節(jié)很容易出現(xiàn)誤差。傳統(tǒng)統(tǒng)計模型方法則一般采用GMM或HMM模型(Robust?Syllable?Segmentation?and?its?Applicationto?Syllable?centric?Continuous?Speech?Recognition.2010),與ANN方法相同,此類方法也需要大量人工標(biāo)注的數(shù)據(jù),同時有研究表明GMM或HMM模型在一般問題上的性能要比ANN方法差。
對于上述的方法中,雖然基于ANN的算法一般能取得比較好的音節(jié)數(shù)估計結(jié)果,但其高昂的成本使實際應(yīng)用變得十分困難。而基于音節(jié)檢測的方法雖然實現(xiàn)了低成本,但其效果還沒有達(dá)到能實際應(yīng)用的水平。基于上述缺點可知現(xiàn)有技術(shù)難以滿足實際需求的問題。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提出了一種基于語譜圖時間差分的語音音節(jié)數(shù)估計方法。利用語譜圖中濁音起始邊界比較明顯的特征,通過圖像后向平滑以及時間差分得出語譜圖在時間上的動態(tài)信息,從而得到濁音起始邊界,進而得到語音音節(jié)數(shù)的估計值。
本發(fā)明的目的至少通過如下技術(shù)方案之一實現(xiàn)。
一種基于語譜圖時間差分的語音音節(jié)數(shù)估計方法,包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911331869.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種音頻文件的分類方法及裝置
- 音頻數(shù)據(jù)處理方法及裝置、計算設(shè)備
- 一種語譜圖生成方法、系統(tǒng)及相關(guān)裝置
- 一種風(fēng)噪聲抑制方法、裝置及可讀存儲介質(zhì)
- 帕金森聲紋語譜圖樣本擴充方法、裝置及計算機存儲介質(zhì)
- 語音數(shù)據(jù)處理方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 一種基于倒譜語譜圖的鳥類物種數(shù)量的獲取方法及系統(tǒng)
- 一種基于Matlab的語譜圖生成及顯示方法和裝置
- 語譜圖匹配方法、裝置、設(shè)備及計算機可讀存儲介質(zhì)
- 一種結(jié)合CGAN譜圖去噪和雙邊濾波譜圖增強的語音情感識別方法





