[發明專利]一種適應于個性化交互系統的音頻對象編碼方法有效

申請號：	201910972165.8	申請日：	2019-10-14
公開（公告）號：	CN110739000B	公開（公告）日：	2022-02-01
發明（設計）人：	胡瑞敏;胡晨昊;王曉晨;武庭照;吳玉林	申請（專利權）人：	武漢大學
主分類號：	G10L19/008	分類號：	G10L19/008;G10L19/02
代理公司：	武漢科皓知識產權代理事務所(特殊普通合伙) 42222	代理人：	魏波
地址：	430072 湖***	國省代碼：	湖北;42
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種適應個性化交互系統音頻對象編碼方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種適應于個性化交互系統的音頻對象編碼方法，其特征在于，包括以下步驟：

步驟A1：對輸入的音頻對象序列進行分幀加窗，將時域信號轉換到頻域信號，得到每個音頻對象的時頻矩陣；

步驟A2：根據每個對象的時頻矩陣，計算對象頻域能量進行排序，確定多步逐級編碼中每步需要編碼的對象；

步驟A3：根據確定的編碼順序，逐步下混并計算對應的邊信息；所述逐步下混，指下混分多步進行，每一步將當前處理流程中輸入的對象對數據進行矩陣相加，得到一個和矩陣，和矩陣作為下一步下混的對象之一；對象對指兩個需要進行處理的輸入信號，在第一步下混時對象對包含兩個音頻對象，在第二步及以后的步驟中對象對包含一個音頻對象和上一步得到的中間下混信號，最后一步的輸出為最終下混信號；其中，中間下混信號并不作為傳輸碼流進行傳輸；所述邊信息包含對象殘差與對象增益參數矩陣；其中，對象增益參數通過對象對中兩個輸入信號的能量比計算得到；

步驟A4：利用奇異值分解將邊信息中的對象殘差分解為左、右奇異矩陣與奇異值；

步驟A5：量化奇異矩陣、奇異值及對象增益參數，獲得邊信息碼流；

步驟A6：將步驟A3中的最終下混信號進行編碼，獲得下混信號碼流；

步驟A7：步驟A5和步驟A6得到的碼流合成為輸出碼流，傳輸到解碼端。

2.根據權利要求1所述的適應于個性化交互系統的音頻對象編碼方法，其特征在于：步驟A1中，通過分幀、加窗與改進離散余弦變換MDCT將原本時域的一維聲音信號，變為頻域的二維頻譜圖，輸出得到的是矩陣形式的對象數據。

3.根據權利要求1所述的適應于個性化交互系統的音頻對象編碼方法，其特征在于：步驟A2中，根據矩陣形式的對象數據，計算對象頻域能量，選擇從大到小的能量排序方式，確定每步需要編碼的對象順序；編碼順序，指優先編碼能量較大的音頻對象；

所述對象頻域能量的計算如下式所示：

其中，||S_i||表示第i個音頻對象的總能量，N為編碼的對象個數；O_i表示第i個對象在所有對象總能量中的占比，根據每個對象O_i值從大到小排序，優先編碼O_i值大的對象。

4.根據權利要求1所述的適應于個性化交互系統的音頻對象編碼方法，其特征在于：步驟A3中，逐步下混并計算每步編碼對象的邊信息，每步僅計算編碼一個對象邊信息；

對象殘差與對象增益參數的計算公式如下所示：

其中，R(i)為第i+1個對象的殘差信號，G_o(i)為第i+1個對象的增益參數，G_d(i)為第i個下混信號的增益參數；X_i表示第i步得到的下混信號，P_o(i)為對象i的能量，P_d(i)為第i步下混信號的能量；N表示需要編碼的對象個數。

5.根據權利要求1所述的適應于個性化交互系統的音頻對象編碼方法，其特征在于：步驟A4中，通過奇異值分解方法對多個對象的殘差矩陣進行降維壓縮，減少殘差信息帶來的數據量上升；殘差矩陣被分解為三個小矩陣，分別為左奇異矩陣、奇異值矩陣、右奇異矩陣；其中，奇異值矩陣僅傳輸矩陣對角線上的數值。

6.根據權利要求1所述的適應于個性化交互系統的音頻對象編碼方法，其特征在于：步驟A5中，通過查表法量化邊信息，量化前會對殘差分解矩陣與增益參數矩陣的元素值進行歸一化處理；然后根據每個元素值的大小在量化表中查找最接近的量化值，并將對應的量化索引作為邊信息量化碼流輸出。

7.根據權利要求1所述的適應于個性化交互系統的音頻對象編碼方法，其特征在于：步驟A6中，最終下混信號采用AAC編碼器進行編碼后輸出碼流。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于武漢大學，未經武漢大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910972165.8/1.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用頻譜分析，例如變換聲碼器或子頻帶聲碼器
G10L19-04 .利用預測技術
G10L19-06 ..例如短期預測系數的頻譜特征的確定或編碼
G10L19-08 ..激勵函數的確定或編碼；長期預測參數的確定或編碼
G10L19-14 ..不包括在G10L 19/06至G10L 19/12組中的零部件，例如增益編碼、后置濾波設計或聲碼器結構

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】