[發明專利]一種基于深度自編碼機低速率語音編碼方法在審
| 申請號: | 202010055219.7 | 申請日: | 2020-01-17 |
| 公開(公告)號: | CN111243608A | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 閔剛;張長青;解云虹;譚薇;周懷軍;吳廣恩;劉向陽 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G10L19/08 | 分類號: | G10L19/08;G10L25/30;G10L25/45 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 410003 湖南省長沙市*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 編碼 速率 語音 方法 | ||
本發明提供了一種基于深度自編碼機低速率語音編碼方法,包括:步驟1,輸入原始語音信號s(n),并對原始語音信號s(n)進行分幀處理,得到每一幀語音信號sm;步驟2,取分幀處理后的每一幀語音信號sm的對數幅度譜ym;步驟3,構建深度神經網絡模型,對所構建的深度神經網絡模型進行訓練;步驟4,將每一幀語音信號的對數幅度譜ym輸入至訓練后的深度神經網絡模型,得到重建的每幀語音信號步驟5,對重建的每幀語音信號進行重疊加操作得到語音編碼輸出本發明采用數據驅動的方式從語音信號中自動學習得到可進行量化編碼的特征參數,通過對該特征參數進行高效量化從而實現語音信號的數字化和壓縮編碼。
技術領域
本發明屬于語音編碼中低速率聲碼器的技術領域,具體涉及一種 基于深度自編碼機低速率語音編碼方法。
背景技術
語音通信是人類相互交流最自然、最便捷的手段。隨著移動互聯 網的快速發展,雖然數據通信業務量已經超越了傳統的語音通信業 務,但語音通信的基礎地位在相當長一段時間內不會改變。語音編碼, 旨在通過數字信號處理手段對語音信號進行高效壓縮以滿足有限通 信帶寬的需要,是語音通信的核心和關鍵技術之一。隨著多年的深入 研究,許多成功的語音編碼模型相繼被提出并制定了一系列語音壓縮 編碼標準,如公共交換電話網中使用的ITU-T G.711標準64kb/s脈 沖編碼調制(Pulse code modulation,PCM)語音編碼方式;GSM數 字蜂窩移動通信中使用的GSM-EFR標準12.2kb/s代數碼激勵線性 預測(Algebraic code excited linearprediction,ACELP)編碼方式;3G 移動通信中使用的3GPP標準4.75-12.2kb/s自適應多速率(Adaptive multi-rate,AMR)編碼方式和3GPP2標準0.8-8.55kb/s增強型變速率 語音編碼(Enhancedvariable rate codec,EVRC)方式;4G以及下一 代移動通信中使用的3GPP標準增強型語音服務(Enhanced voice service,EVS)編碼方式以及3GPP2標準可選模式語音編碼(Selective mode vocoder,SMV)方式等。為滿足民用移動通信快速發展需要, 傳統語音編碼正呈現出變速率、寬帶化、面向全IP應用的趨勢。然 而,編碼語音質量與語音編碼速率之間始終是一對矛盾,固定編碼速 率不斷提高編碼語音質量或保持編碼語音質量不斷降低編碼速率一 直以來都是語音編碼研究追求的永恒目標。語音編碼一個有啟發的下 限是50b/s,而目前的語音編碼速率離此下限還有很大的空間。基于 此原始驅動以及各種特殊應用需求,有必要進一步降低語音編碼速 率。
與民用語音通信不同,軍用語音通信面臨的通信環境更加惡劣, 各種嘈雜的背景噪聲大量存在且干擾密集、復雜而又多變。如在軍用 短波、衛星、水聲等特殊通信領域,信道特性復雜多變且干擾較為嚴 重,帶寬資源十分有限,4kb/s以上中高速率語音編碼算法難以保障 正常語音通信,因此進一步降低語音編碼速率有著現實而緊迫的需 求。但是,傳統低速率語音編碼模型和方法模擬人類發生機理,受限 于聲源—濾波器語音編碼框架,需要提取基音周期、子帶清濁音判決、 殘差譜等激勵信息以及線譜對(Line spectrum pair,LSP)參數等聲道 信息,編碼參數類型多樣且難以聯合量化,因此進一步降低編碼速率 十分困難。此外,聲源—濾波器框架下語音編碼模型對背景噪聲十分 敏感、魯棒性較差,主要表現在當存在背景噪聲干擾時,激勵、聲道 等語音編碼參數的提取和量化過程都會產生較大偏差,并最終導致編 碼語音質量嚴重惡化。
因此,以低速率、高質量、噪聲魯棒語音編碼研究為目標,創新 語音編碼模型、降低語音編碼速率、提升編碼語音質量等課題仍然吸 引不少研究人員的關注。
發明內容
針對現有技術中存在的不足,本發明的目的在于,提供一種基于 深度自編碼機的新型低速率語音編碼方法,解決現有技術難以進一步 降低編碼速率同時保持較高語音編碼質量的技術問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010055219.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種沉積納米材料方法
- 下一篇:氯堿設備的熱管理系統





