[發明專利]基于時頻脊線-Hough變換的漢語聲調識別方法在審

申請號：	201410509560.X	申請日：	2014-09-28
公開（公告）號：	CN104299611A	公開（公告）日：	2015-01-21
發明（設計）人：	于鳳芹	申請（專利權）人：	江南大學
主分類號：	G10L15/02	分類號：	G10L15/02;G10L13/08
代理公司：	暫無信息	代理人：	暫無信息
地址：	214122 江蘇***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于時頻脊線 hough 變換漢語聲調識別方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明屬于語音合成與語音識別中的聲調識別技術領域。本發明把攜帶漢語聲調的韻母語音信號用一種時頻分布來表示,漢語的聲調信息則體現在時頻分布圖像中的脊線變化趨勢上，通過對時頻分布圖像進行二值化、閾值化、細化等預處理后得到反映聲調變化趨勢的線段，對這些線段進行Hough變換，根據Hough變換參數來識別漢語的聲調。

背景技術

漢語語音信號除具有語音信號非平穩的共性外，它還呈現有聲調特征，聲調是漢語的主要屬性之一，具有構詞、辨義和提高表達效果等功能。漢語中的30％是同音不同調的，聲調是漢語語音分析處理不可回避的問題，聲調在漢語語音信號識別與合成的等起重要的作用，結合聲調特征的語音識別有助于提高語音的識別率；考慮聲調的語音合成可減少合成語音的機器味增強自然感。

漢語中的單個漢字都是單音節，音節可以作為漢語語音分析的基本單元，而漢語的音節由聲母和韻母組成，聲調信息由韻母攜帶，漢語普通話是一種帶有聲調的語言，漢語聲調一般分成一聲(陰平)、二聲(陽平)、三聲(上聲)和四聲(去聲)四類。漢字的發音由韻母和聲母配合構成一個音節，聲調由韻母發音部分攜帶，每一種聲調都呈現特定形狀的基音曲線，它反映正常重音音節的音高形式，具有曲拱特征。

目前提取聲調特征主要是時域方法和頻域方法。時域方法利用線性預測和自相關函數等提取基音頻率，頻域方法對線性預測殘差進行倒譜分析可獲得基頻的精準位置。時域方法運算量小，但抗噪性能差且易出現倍頻或半倍頻，以Hilbert—Huang變換和倒譜相結合的頻域方法運算復雜，且在提取基音的過程中，無論采用哪一種方法提取的基音頻率軌跡與真實的基音頻率軌跡都不可能完全吻合。此外，聲調特征提取后，一般都使用支持向量機、高斯混合模型、神經網絡等分類器識別，需要訓練過程后才能識別是第幾聲調，算法復雜、運算時間長。

發明內容

(1)漢語韻母的最佳時頻表示

語音是典型的非平穩信號，時頻分布是分析非平穩信號分析的有力工具。魏格納-威力分布(Wigner-Ville?Distribution,WVD)具有最好的時頻聚集性，但對于多分量信號存在交叉項，交叉性的存在干擾了信號的真實時頻分布。平滑的偽魏格納-威力分布(Smoothed?Pseudo?Wigner-Ville?Distribution,SPWVD)，通過在時域和頻域加窗函數平滑來抑制WVD的交叉項，兼顧了時頻聚集性和交叉項抑制。SPWVD定義為：

SPWVDz(t,f)=∫-∞∞∫-∞∞z(t-u+τ2)z*(t-u-τ2)g(u)h(τ)e-j2πτfdudτ---(1)]]>