[發明專利]提取語音信號的韻律特征的方法和裝置無效
| 申請號: | 200910168513.2 | 申請日: | 2009-08-21 |
| 公開(公告)號: | CN101996628A | 公開(公告)日: | 2011-03-30 |
| 發明(設計)人: | 劉昆;吳偉國 | 申請(專利權)人: | 索尼株式會社 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 朱勝;陳煒 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 提取 語音 信號 韻律 特征 方法 裝置 | ||
技術領域
本發明涉及語音信號處理領域,更具體地涉及一種提取語音信號的韻律特征的方法和裝置。此外,本發明還涉及一種將所述韻律特征與傳統聲學特征結合使用的方法。
背景技術
韻律特征又叫“超音質特征”或“超音段特征”,發音人的聲調、語調、重音、音長、音強和音高,說話風格、口音等韻律特征都是超音段方面的特征成分。目前在語言學和語音合成方面的研究居多,主要集中在重音、音長、音高方面,通常采用基頻,時長來進行描述。
例如,李曉慶等人所著的“重讀與信息結構對語篇理解加工的影響”(心理學報,2005年01期)和楊玉芳等人所著的“韻律特征研究”(心理科學進展,2006年第14卷,第04期)從知覺、認知和語料庫的角度對漢語韻律特征進行了一系列的研究。在知覺方面,用實驗心理學和知覺標注的語料庫分析方法,分析知覺可以區分的韻律層級及相關的聲學線索,研究結果證明語篇中知覺可以區分的韻律邊界是小句、句子和段落,及其知覺相關的聲學線索;在認知方面,研究了韻律特征在語篇理解中的作用,用實驗心理學方法和腦電指標研究韻律對語篇信息整合和指代理解的影響,揭示其作用的認知和神經機制;在語料庫方面,在標注的語料庫的基礎上,用常規統計方法研究語句常規重音分布規律、語篇信息結構與重音的關系、并用決策樹方法研究根據文本信息確定韻律短語邊界和焦點的規則。因此,該研究證明了韻律特征在感知層的影響,但是該研究是從語言學文法分析出發,因此不但受被研究語種的限制,而且沒有對如何提取韻律特征這一方面進行描述。
此外,田嵐等人所著的“一種數據驅動的漢語成句語音韻律特征產生模型的研究”(控制與決策,2003年18卷6期)針對漢語發音特點,從基頻角度進行研究,對大量自然漢語語句基頻輪廓數據進行了統計和分析,輔以時長和增益參數,研究了韻律在漢語的語氣、短語節奏、韻律詞聲調及輕重音等方面的信息。該研究可以按語言知識分類訓練和標注各種參數。但是得到的節奏、輕重、語氣等信息很難和目前語音信號處理中主流的聲學特征,如MFCC(Mel?Frequency?Cepstral?Coefficient,美爾倒譜系數)、LPCC(Linear?Prediction?Cepstrum?Coefficient,線性預測倒譜系數)、LSF(Line?Spectrum?Frequency,線譜頻率)等很好地結合起來。
另外,蔡蓮紅等人所著的“漢語韻律特征的可計算性研究”(第五屆全國現代語音學術會議論文集,2001年)研究了基頻的量化表示,基頻均值和基頻調域的感知試驗,研究結果表明,改變調域對聽感的影響沒有改變均值的效果明顯;同時,還采用基頻、時長、調域作為評價一個音節的基本參數,對重音進行了較為詳細的研究。研究雖然也嘗試了韻律的可計算性研究,但是試驗還是建立在語言學分析的基礎上的,而且僅僅用基頻、時長和信號幅度對重音方面進行了分析,因此,這樣的重音表征需要人工的標注數據,不能自動生成,而且也不能和MFCC、LPCC、LSF等聲學特征結合使用。
如何對韻律特征進行表征,而且自動計算,并能夠和目前語音信號處理中主流的聲學特征,如MFCC、LPCC、LSF等參數很好地結合起來,是目前韻律研究的一個難點,也是目前迫切需要解決的一個問題。
發明內容
在下文中給出了關于本發明的簡要概述,以便提供關于本發明的某些方面的基本理解。但是,應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖用來確定本發明的關鍵性部分或重要部分,也不是意圖用來限定本發明的范圍。其目的僅僅是以簡化的形式給出關于本發明的某些概念,以此作為稍后給出的更詳細描述的前序。
鑒于現有技術的上述情形,本發明的目的是提供一種提取語音信號的韻律特征的方法和裝置、以及將所述韻律特征與傳統聲學特征結合使用的方法,其從不同頻段給人們的不同聽覺感受方面出發,針對不同頻段提取相應的韻律特征。所述韻律特征無需人工標注,能夠自動生成,并能夠和語音信號處理中主流的聲學特征,如MFCC、LPCC、LSF等參數很好地結合使用,并應用到語音信號處理的各個領域中,如說話人識別、說話人聚類等。
為了實現上述目的,根據本發明的一個方面,提供了一種提取語音信號的韻律特征的方法,其包括:對語音信號進行分幀;對語音幀進行時域到頻域的變換;以及針對不同的頻段,計算相應的韻律特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于索尼株式會社,未經索尼株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910168513.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:燃氣爐具備用爐頭結構
- 下一篇:一種太陽能庭院燈





