[發明專利]一種語音基元的編碼與合成系統無效

申請號：	201010215135.1	申請日：	2010-06-30
公開（公告）號：	CN102314873A	公開（公告）日：	2012-01-11
發明（設計）人：	孟智平	申請（專利權）人：	上海視加信息科技有限公司
主分類號：	G10L13/06	分類號：	G10L13/06;G10L15/14;G10L19/14
代理公司：	暫無信息	代理人：	暫無信息
地址：	200051 上海市長寧***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語音編碼合成系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及語音編碼、語音傳輸、語音電話等領域，尤其涉及一種語音基元的編碼與合成系統。

背景技術

隨著現代網絡技術的發展，通過因特網傳送語音信號的應用越來越多，尤其是在線聊天工具的迅速普及，已使網絡電話成為一種受人喜愛的溝通工具。目前大部分的網絡電話都采用G.711、G.723、G.726、G.729等通用的編碼技術，網絡傳送中的語音多采用壓縮比較高的中、低速率語音編碼。低速率的語音壓縮編碼雖然給信道的傳輸帶來了方便，也節省了存儲空間，但是由于大部分語音編碼都是有損壓縮，語音質量勢必會受到損失。這些技術的共同點都是利用人耳感知的先驗知識對語音進行有損壓縮。專利號00126112.6公開了一種采用單幀、變幀長、幀內比特自適應的低速語音壓縮編碼方法，可使編碼壓縮的能力進一步提高，進而提高了數據傳輸效率。這些編碼方式都是針對人耳聽覺特點，設計人耳能容忍的有損壓縮方案來達到減小編碼速率的目的的。實際上，如果只是針對人的語音進行編碼，不涉及音樂等其他問題，壓縮率還可以進一步改進。

語音學研究表明，音素是從音質角度劃分的最小的語音單位，從發音特征上看，人們發出的語音都是由不同的音素構成的，一個音素或者多個音素的組合，形成了不同的音節，如每一個漢字的發音即是一個音節。經過統計分析發現，人發音的音素個數其實是有限的，而且有一些音素是可以由其他一些音素組合而成，由此可知，每一種語言便可統計出構成該語言發音特征的基本音素。根據國際音標協會組織2005年最近公布結果，世界上已知的發音中，肺部氣流音有59個，非肺部氣流音有14個，其他輔音12個，單元音28個，其他的發音，不外乎這些音的組合。

網絡語音傳輸或電話語音通信時，通常收聽方所關心的僅是說話方發出的語音信息，如果傳輸或通信的內容只有人說話的語音信息，沒有其他聲音或者濾掉其他聲音，則語音傳輸在已有方法基礎上還可以進一步壓縮。

此外，通過對連續語音流的波形及頻譜包絡分析發現，無論是一次連續的語音流所生成的同一波形中，還是不同語音流所生成的不同波形中，很多波形是相同或非常相似的，如果在編碼之前能夠對這些波形進行處理，對具有共同特征的波形段進行分析，建立波形模型庫，為不同的波形賦予編號，便可以改進已有的以幀為單位進行采樣的編碼方式，而是僅對波形對應的編號進行編碼，從而極大地提高編碼的效率。

本發明以語音基元為編碼單位，設計了一種更優的語音編碼方案。該方案根據獲得的連續語音流數據，提取相應的語音基元，構建語音基元模型庫，通過對獲得的連續語音流進行切分，將切分的語音基元與模型庫中的語音基元進行匹配，獲得當前語音的語音基元編號。于是原先需要上百維的頻譜信號或者十幾維的倒譜信號來描述的語音信號，現在僅用一個整數編號就可以描述。在解碼的時候，根據此整數，從庫中獲得真正的譜信號重建語音，從而大大提高語音的壓縮率。

發明內容

為了對語音流數據進行壓縮編碼，使語音數據在低帶寬或網絡性能較差情況下進行有效傳輸，本發明首先公開了一種生成語音基元模型庫的方法，包括以下步驟：

獲取大量語音流樣本數據，并將這些語音流數據進行切分，以獲取由不同音素或不同波形為單位所構成的語料庫，將構成語料庫的基本單元稱為語音基元；

提取語音基元的特征，構成特征向量；

對語音基元特征向量樣本進行模糊聚類，將所有數據樣本分為N類，得到對應的聚類中心和隸屬度函數；

分析各類語音基元的特征，進而確定擬建語音基元模型庫所需的最少語音基元；

對各類語音基元的語音特性進行分析處理，以獲得每一類語音基元的頻譜包絡特征，并將其存儲于語音基元模型庫中，最終構成語音基元模型庫；

所述對語音流數據進行切分，是以音素或者幀為單位，對連續語音流進行切分；

所述以音素為單位進行切分是指采用音素自動切分算法，將連續的語音流自動地切分成由不同的音素所構成的音素集合；

所述以幀為單位進行切分是指以某一時間幀為單位，將連續的語音流切分成由不同波形所構成的語音波形集合；

所述語音基元模型庫是指構成可理解的語音流所需的最小的音素樣本庫或最小的語音波形樣本庫；

所述音素自動切分算法包括以下步驟：