[發明專利]一種動態漢語語音合成方法無效
| 申請號: | 01123418.0 | 申請日: | 2001-07-20 |
| 公開(公告)號: | CN1333501A | 公開(公告)日: | 2002-01-30 |
| 發明(設計)人: | 呂士楠;陳明;張連毅;賀琳;耿俊成 | 申請(專利權)人: | 北京捷通華聲語音技術有限公司 |
| 主分類號: | G06F3/16 | 分類號: | G06F3/16;G06F17/30;G10L13/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100085 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 動態 漢語 語音 合成 方法 | ||
本發明涉及一種語音合成技術,特別是涉及一種基于大規模自然語音音庫的動態漢語語音合成技術。
目前,國內外語音合成技術主要有參數合成技術和波形合成技術兩種。波形合成技術又分為簡單波形拼接技術和基音同步波形疊加技術兩種。
從理論上講參數合成技術是合理的,但這種技術過分依賴于語言學和語音學的發展,由于言語生成模型不夠完善,合成語音的音質總是不盡人意。
應用參數合成技術的資料可參閱中國重大科技成果數據庫(1986—今),1.編號851408,四川大學楊家沅等的研究成果:“計算機漢語語音合成裝置”;2.編號880759,四川大學茍大舉等的研究成果,“無限詞匯的計算機漢語語音合成系統”;3.編號912209,復旦大學李宗葛等的研究成果:“人—機器人漢語語音通信系統研究”。
波形拼接技術在用于語音表公共汽車報站器等有限詞匯合成時,能合成出清晰、自然的語音。但簡單的波形拼接法用于無限詞匯的漢語文語轉換系統時,由于不能改變原始采樣波形的聲學參數,以使其適應于不同的上下文語言環境,所以使得合成出的連續語音的自然度較差。
應用波形拼接合成技術的資料可查閱:1.中國發明專利:ZL94103372,發明人:清華大學蔡蓮紅等,發明名稱:“基于波形編輯的漢語文字—語音轉換方法及系統”;2.中國重大科技成果數據庫,a.編號891728,復旦大學邵祥義等的研究成果:“漢語語聲識別及合成技術開發”;b.編號941008,清華大學蔡蓮紅等的研究成果,“漢語文語轉換系統TH-Speech”;3.中國適用技術數據庫(1983—今),編號199012,同濟大學邵祥義等的研究成果:“漢語語聲識別及合成技術開發”。
利用基因同步波形疊加方法在時間域中調節韻律參數,對提高自然度有一定作用,但處理后的聲音和音色與原始發音不完全相同,有機器聲、回聲,聽起來不夠親切和清晰,也很難為公眾所接受。相關文獻見中國實用新型專利ZL?97215108,發明人呂士楠等,發明名稱為“基音同步波形疊加漢語文語轉換裝置”。
本發明的目的是針對現有的利用參數合成、簡單波形拼接合成以及基音同步疊加技術的語音合成所存在的缺陷和不足,采用一種基于拼接自然言語片段的無限詞匯動態漢語語音技術,提供一種高清晰度和高自然度的漢語文語轉換系統,即以自然語音的音色和韻律將漢字文本變成語音的播放系統。該系統以大規模的自然語音的數字化錄音為基礎,通過選取相匹配的語音片段的拼接,以達到合成為自然、流暢的漢語語音的目的。
本發明主要基于大規模自然語音的錄音音庫。大規模的概念是指錄音音庫的范圍基本覆蓋了絕大多數上下文環境中的各種發音的情況,針對不同的上下文環境,系統將選取最匹配的原始語音片段來加以拼接。由于音庫的規模很大,因此在幾乎所有情況下,都能夠找到最適合的原始自然語音,而無需使用其它技術進行調節,因此保證了最終合成的語音和原始語音的一致性。另外,這里所選取的片段超越了音節的層次,而是多字詞,這樣就進一步保證了合成語音的自然度。本發明的技術方案主要分為兩部分:一是大規模錄音音庫的構造,二是語音的合成。
在大規模錄音音庫的構造過程中,主要包括以下幾個步驟:
首先,進行錄音文本設計(即擬定錄音的內容)。通過計算機從一個大規模語料庫(1999年人民日報,約2500萬字)中檢索高頻度的漢語語句,再由人工確認并淘汰不合適的語句。在此檢索結果上構造錄音文本,以保證根據此錄音文本錄制的音庫具有較高的覆蓋率,既能夠覆蓋所有的漢語基本音節,包括常見的輕聲、兒化音節和絕大多數的上下文語言環境,如句法結構及語法重音配置等。
第二步,擬定錄音內容后。請一位專業播音員在專用的錄音室中進行錄音,房間的混響時間為0.5秒左右,信噪比高于30分貝,用高保真話筒和放大器,要求從20Hz~20KHz間有平坦的響應。要求播音員按照正常的速度和音高朗讀所擬定的錄音文本。用數字錄音機和數字錄音磁帶采用16位量化,不低于16KHz采樣率進行錄音。同時采用電聲門波圖儀記錄聲門振動的信號,并記錄在數字錄音磁帶上。
第三步,由人工將上述得到的錄音信號,從數字錄音機中通過采樣卡采到計算機中,由此便得到真實錄音的語音庫。同時將聲門振動的信號也采樣到計算機中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京捷通華聲語音技術有限公司,未經北京捷通華聲語音技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/01123418.0/2.html,轉載請聲明來源鉆瓜專利網。





