[發(fā)明專利]音頻通道混合在審
| 申請?zhí)枺?/td> | 202010521724.6 | 申請日: | 2020-06-10 |
| 公開(公告)號: | CN112071324A | 公開(公告)日: | 2020-12-11 |
| 發(fā)明(設計)人: | 托雷·魯?shù)虏?/a>;克里斯蒂安·舒德特 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G10L19/008 | 分類號: | G10L19/008;G10L19/012 |
| 代理公司: | 上海華誠知識產(chǎn)權代理有限公司 31300 | 代理人: | 肖華 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 通道 混合 | ||
公開了用于音頻通道混合的方法,系統(tǒng)和裝置,包括在計算機存儲介質上編碼的計算機程序。在一個方面,一種方法包括以下動作:接收第一音頻通道的第一音頻數(shù)據(jù)。動作還包括發(fā)送第一音頻數(shù)據(jù)。動作還包括,在接收和發(fā)送所述第一音頻數(shù)據(jù)的同時,接收第二音頻通道的第二音頻數(shù)據(jù);確定第一音頻數(shù)據(jù)的第一語音音頻能量水平和第一音頻數(shù)據(jù)的第一噪聲能量水平;確定第二音頻數(shù)據(jù)的第二語音音頻能量水平和第二音頻數(shù)據(jù)的第二噪聲能量水平;確定是切換到發(fā)送第二音頻數(shù)據(jù)還是繼續(xù)發(fā)送第一音頻數(shù)據(jù)。動作還包括發(fā)送第一音頻數(shù)據(jù)或第二音頻數(shù)據(jù)。
相關申請的交叉引用
本申請要求2019年6月10日提交的美國申請62/859,386的權益,其通過引用并入本文。
技術領域
本說明書大體涉及語音處理。
背景技術
語音處理是對語音信號和信號處理方法的研究。信號通常以數(shù)字表示進行處理,因此語音處理可以被認為是應用于語音信號的數(shù)字信號處理的特殊情況。語音處理的方面包括語音信號的獲取,操縱,存儲,傳輸和輸出。
發(fā)明內容
對于具有多個麥克風的音頻會議系統(tǒng),進行音頻會議有時可能是具有挑戰(zhàn)性的。理想地,音頻會議設備應該基于可用麥克風檢測到的音頻來發(fā)送包含最清晰語音的音頻。在沒有即按即說系統(tǒng)的情況下,音頻會議設備可能無法確定哪個麥克風或麥克風的組合正在拾取最清晰的語音。同時發(fā)送由每個麥克風拾取的音頻不是實際的選擇。包括多個濾波的麥克風信號的一些麥克風信號或波束形成的音頻通道可以包括比其它信號更多的噪聲,并且最好忽略噪聲麥克風或音頻通道。一些音頻會議設備簡單地測量通過每個麥克風接收的音頻的能量水平或音頻通道的音頻水平,并以最高的能量水平發(fā)送音頻。因為一些麥克風可以拾取比其他麥克風更多的噪聲,所以音頻會議設備可以在揚聲器遠離麥克風或者沒有人說話的時段期間結束發(fā)送噪聲音頻。
為了選擇具有最干凈音頻的麥克風或音頻通道,音頻會議設備可以使用經(jīng)過訓練的模型來確定每個音頻信號中的語音音頻的水平和噪聲的水平。可以使用機器學習和音頻樣本來訓練該模型,所述機器學習和音頻樣本中的每一個都用包括在音頻樣本中的語音音頻的水平和包括在音頻樣本中的噪聲的水平來標記。通過將該模型應用于每個音頻信號,音頻會議設備能夠選擇可能具有最干凈(或最清晰)語音的音頻信號,即使該音頻信號不是最響的。
根據(jù)本申請中描述的主題的創(chuàng)新方面,一種用于音頻通道混合的方法包括由計算設備通過第一音頻通道接收第一音頻數(shù)據(jù)的動作;計算設備發(fā)送第一音頻數(shù)據(jù);在接收和發(fā)送第一音頻數(shù)據(jù)的同時:由計算設備通過第二音頻通道接收第二音頻數(shù)據(jù);計算設備通過提供第一音頻數(shù)據(jù)作為模型的第一輸入來確定第一音頻數(shù)據(jù)的第一語音音頻能量水平和第一音頻數(shù)據(jù)的第一噪聲能量水平,該模型被訓練以確定給定音頻數(shù)據(jù)的語音音頻能量水平和給定音頻數(shù)據(jù)的噪聲能量水平;計算設備通過提供第二音頻數(shù)據(jù)作為模型的第二輸入來確定第二音頻數(shù)據(jù)的第二語音音頻能量水平和第二音頻數(shù)據(jù)的第二噪聲能量水平;以及,基于所述第一語音音頻能量水平,所述第一噪聲能量水平,所述第二語音音頻能量水平和所述第二噪聲能量水平,由所述計算設備確定是切換到發(fā)送所述第二音頻數(shù)據(jù)還是繼續(xù)發(fā)送所述第一音頻數(shù)據(jù);并且,基于確定是切換到發(fā)送第二音頻數(shù)據(jù)還是繼續(xù)發(fā)送第一音頻數(shù)據(jù),由計算設備發(fā)送第一音頻數(shù)據(jù)或第二音頻數(shù)據(jù)。
這些和其它實施方式可以各自可選地包括一個或多個以下特征。所述動作還包括由所述計算設備接收語音音頻樣本;計算設備接收噪聲樣本;計算設備確定每個噪聲樣本的噪聲能量水平和每個語音音頻樣本的語音音頻能量水平;計算設備通過組合每個噪聲樣本和每個語音音頻樣本來生成噪聲語音音頻樣本;計算裝置利用機器學習,使用每個噪聲樣本的噪聲能量水平,每個語音音頻樣本的語音音頻能量水平,以及噪聲語音音頻樣本對模型進行訓練。組合每個噪聲樣本和每個語音音頻樣本的動作包括在時域中重疊每個噪聲樣本和每個音頻樣本,并將每個噪聲樣本和每個音頻樣本相加。確定是切換到發(fā)送第二音頻數(shù)據(jù)還是繼續(xù)發(fā)送第一音頻數(shù)據(jù)的動作包括確定切換到發(fā)送第二音頻數(shù)據(jù)。發(fā)送第一音頻數(shù)據(jù)或第二音頻數(shù)據(jù)的動作包括發(fā)送第二音頻數(shù)據(jù)并停止發(fā)送第一音頻數(shù)據(jù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經(jīng)谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010521724.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





