[發明專利]一種輕量級的多方會議混音方法和裝置在審
| 申請號: | 201410414450.5 | 申請日: | 2014-08-21 |
| 公開(公告)號: | CN104167210A | 公開(公告)日: | 2014-11-26 |
| 發明(設計)人: | 王田;蔡奕僑;鐘必能;陳永紅;田暉;張國亮 | 申請(專利權)人: | 華僑大學 |
| 主分類號: | G10L19/008 | 分類號: | G10L19/008;H04N7/15;H04L29/06 |
| 代理公司: | 廈門市首創君合專利事務所有限公司 35204 | 代理人: | 張松亭;林燕玲 |
| 地址: | 362000*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 輕量級 多方 會議 方法 裝置 | ||
1.一種輕量級的多方會議混音方法,其特征在于:1)客戶端采用AMR編碼器對語音進行編碼后得到語音PCM數據及數據長度,對編碼后的語音PCM數據采用分幀處理,計算每幀語音能量值,并結合該幀語音能量值及其數據長度來確定該幀為語音幀或非語音幀,從而統計出語音PCM數據中語音幀的概率值;2)服務器端通過接收到的語音概率值選出當前的語音概率值最高的兩個發言者的語音流,并根據這兩個語音概率值大小決定是否使用疊加原理將選出的最多兩路語音流進行混音,最后轉發混音后的語音包。?
2.如權利要求1所述的一種輕量級的多方會議混音方法,其特征在于:預先設定:客戶端每隔一段時間抓取到一幀語音信號,每幀語音信號包括m個采樣值,每個采樣值的能量為ri;設定統計窗口包括連續的n幀語音信號,當前幀的能量相對參考值為Erefer;步驟1)具體包括如下:?
1.1)客戶端輸入語音PCM數據及AMR編碼后的輸出長度,計算當前幀語音PCM數據的能量值
1.2)判斷AMR編碼后的當前幀輸出長度是否等于31,若是,則記錄該幀的能量值,作為語音能量參考值,判定該幀為語音幀并加入統計窗口內,進入步驟1.4);若否,則記錄該幀的能量值,作為非語音能量參考值,進入步驟1.3);?
1.3)判斷當前幀能量值是否大于其能量相對參考值Erefer,若是,則判定該幀為語音幀,若否,則判定該幀為非語音幀;加入新的統計窗口內,進入步驟1.4)?
1.4)判斷統計窗口是否已滿,若是,則計算統計窗口內語音幀的占比,表示成0到100的語音概率值;若否,則進入下一幀,跳至步驟1.1)。?
3.如權利要求2所述的一種輕量級的多方會議混音方法,其特征在于:設定當前幀的前n個連續幀的非語音能量參考值的最大值為Enoise,而語音能量參考值的最大值表示為Evoise,則當前幀的能量相對參考值Erefer用如下公式計算:?
Erefer=Enoise+(Evoice-Enoise)/10。?
4.如權利要求1所述的一種輕量級的多方會議混音方法,其特征在于:步驟2)具體如下:?
2.1)服務器接收客戶端發送過來的語音概率值,選出語音概率值最高的兩條語音流F1、F2,其語音概率值分別為P1、P2,P1>P2;?
2.2)判斷P1>2P2是否成立,若是,則只將P1對應的語音流輸出;若否,則將這兩條語音流進行混音后輸出。?
5.一種輕量級的多方會議混音裝置,包括客戶端和服務器,其特征在于:?
客戶端包括:用于對語音進行編碼得到語音PCM數據及數據長度的AMR編碼器、用于計算編碼后的語音PCM數據的每幀語音能量值的語音能量計算裝置、結合語音能量值及其數據長度來確定該幀為語音幀或非語音幀的判定裝置,及統計出語音PCM數據的統計窗口中語音幀的概率值的統計裝置;?
服務器包括:用于接收語音概率值并選出當前的語音概率值最高的兩個發言者的語音流的接收選擇裝置,根據這兩個語音概率值大小決定是否使用疊加原理將選出的最多兩路語音流進行混音的混音裝置,及轉發語音包的發送裝置。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華僑大學,未經華僑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410414450.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種燃氣計量方法、系統和智能燃氣表
- 下一篇:紙張類處理裝置及紙張類處理機構





