[發(fā)明專利]利用深度學(xué)習(xí)和有限數(shù)據(jù)進(jìn)行多陣列聲音應(yīng)用的特征處理在審
| 申請?zhí)枺?/td> | 202010783855.1 | 申請日: | 2020-08-06 |
| 公開(公告)號: | CN112560885A | 公開(公告)日: | 2021-03-26 |
| 發(fā)明(設(shè)計)人: | G·J·V·M·勒穆安;P·維納亞維金;D·J·R·阿格拉萬特;井上忠宣;A·穆納沃 | 申請(專利權(quán))人: | 國際商業(yè)機器公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/00;G06N3/04;G01S5/18 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 馬明月 |
| 地址: | 美國紐*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 利用 深度 學(xué)習(xí) 有限 數(shù)據(jù) 進(jìn)行 陣列 聲音 應(yīng)用 特征 處理 | ||
本公開的實施例涉及利用深度學(xué)習(xí)和有限數(shù)據(jù)進(jìn)行多陣列聲音應(yīng)用的特征處理。本公開提供了一種用于多源聲音定位的計算機實現(xiàn)的方法。方法包括:由硬件處理器從被包括在兩個或更多個麥克風(fēng)陣列中的每個麥克風(fēng)陣列中的相應(yīng)多個麥克風(fēng)提取頻譜特征。方法還包括:由硬件處理器通過重新布置和復(fù)制來自被包括在兩個或更多個麥克風(fēng)陣列中的每個麥克風(fēng)陣列中的相應(yīng)多個麥克風(fēng)的頻譜特征,形成來自被包括在兩個或更多個麥克風(fēng)陣列中的每個麥克風(fēng)陣列內(nèi)的相應(yīng)多個麥克風(fēng)的頻譜特征的對的相應(yīng)集合。方法還包括:由硬件處理器將頻譜特征的對的相應(yīng)集合輸入到神經(jīng)網(wǎng)絡(luò)中,以將頻譜特征編碼成深度特征,并對深度特征進(jìn)行解碼,以從神經(jīng)網(wǎng)絡(luò)輸出一個或多個聲音源的至少一個位置表示。
技術(shù)領(lǐng)域
本發(fā)明總體上涉及人工智能,并且更具體地涉及利用深度學(xué)習(xí)和有限數(shù)據(jù)進(jìn)行針對多陣列聲音應(yīng)用的高效特征處理。
背景技術(shù)
聲音源定位(SSL)是音頻信號處理的一個關(guān)鍵主題,其應(yīng)用在諸如醫(yī)療保健、制造和家用電子產(chǎn)品之類的領(lǐng)域。對于這樣的任務(wù),基于深度學(xué)習(xí)的方法已經(jīng)示出優(yōu)于基于傳統(tǒng)信號處理的方法。然而,神經(jīng)網(wǎng)絡(luò)要求大量的標(biāo)簽數(shù)據(jù)來訓(xùn)練和實現(xiàn)對期望任務(wù)的令人滿意的性能。對于結(jié)合多個麥克風(fēng)陣列的聲學(xué)應(yīng)用,將所有特征一次饋入神經(jīng)網(wǎng)絡(luò)并非十分有效,因為我們要求神經(jīng)網(wǎng)絡(luò)隱式地學(xué)習(xí)麥克風(fēng)的幾何性質(zhì)。因此,需要利用深度學(xué)習(xí)和有限數(shù)據(jù)進(jìn)行針對多陣列聲音應(yīng)用的高效特征處理。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,提供了一種用于多源聲音定位的計算機實現(xiàn)的方法。該方法包括:由硬件處理器從被包括在兩個或更多個麥克風(fēng)陣列中的每個麥克風(fēng)陣列中的相應(yīng)多個麥克風(fēng)提取頻譜特征。方法還包括:由硬件處理器通過重新布置和復(fù)制來自被包括在兩個或更多個麥克風(fēng)陣列中的每個麥克風(fēng)陣列中的相應(yīng)多個麥克風(fēng)的頻譜特征,形成來自被包括在兩個或更多個麥克風(fēng)陣列中的每個麥克風(fēng)陣列內(nèi)的相應(yīng)多個麥克風(fēng)的頻譜特征的對(pair)的相應(yīng)集合。方法還包括:由硬件處理器將頻譜特征的對的相應(yīng)集合輸入到神經(jīng)網(wǎng)絡(luò)中,以將頻譜特征編碼成深度特征,并對深度特征進(jìn)行解碼,以從神經(jīng)網(wǎng)絡(luò)輸出一個或多個聲音源的至少一個位置表示。
根據(jù)本發(fā)明的另一方面,提供了一種用于多源聲音定位的計算機程序產(chǎn)品。計算機程序產(chǎn)品包括具有隨其體現(xiàn)的程序指令的非瞬態(tài)計算機可讀存儲介質(zhì)。程序指令由計算機可執(zhí)行,以使計算機執(zhí)行一種方法。該方法包括:由計算機的硬件處理器從被包括在兩個或更多個麥克風(fēng)陣列中的每個麥克風(fēng)陣列中的相應(yīng)多個麥克風(fēng)提取頻譜特征。方法還包括:由硬件處理器通過重新布置和復(fù)制來自被包括在兩個或更多個麥克風(fēng)陣列中的每個麥克風(fēng)陣列中的相應(yīng)多個麥克風(fēng)的頻譜特征,形成來自被包括在兩個或更多個麥克風(fēng)陣列中的每個麥克風(fēng)陣列內(nèi)的相應(yīng)多個麥克風(fēng)的頻譜特征的對的相應(yīng)集合。方法還包括:由硬件處理器將頻譜特征的對的相應(yīng)集合輸入到神經(jīng)網(wǎng)絡(luò)中,以將頻譜特征編碼成深度特征,并對深度特征進(jìn)行解碼,以從神經(jīng)網(wǎng)絡(luò)輸出一個或多個聲音源的至少一個位置表示。
根據(jù)本發(fā)明的又一方面,提供了一種用于多源聲音定位的計算機處理系統(tǒng)。該系統(tǒng)包括存儲器設(shè)備,該存儲器設(shè)備包括被存儲在其上的程序代碼。該系統(tǒng)還包括硬件處理器,該硬件處理器被操作地耦合到存儲器設(shè)備,并被配置為運行被存儲在存儲器設(shè)備上的程序代碼,以從被包括在兩個或更多個麥克風(fēng)陣列中的每個麥克風(fēng)陣列中的相應(yīng)多個麥克風(fēng)提取頻譜特征。硬件處理器還被配置為運行被存儲在存儲器設(shè)備上的程序代碼,以通過重新布置和復(fù)制來自被包括在兩個或更多個麥克風(fēng)陣列中的每個麥克風(fēng)陣列中的相應(yīng)多個麥克風(fēng)的頻譜特征,形成來自被包括在兩個或更多個麥克風(fēng)陣列中的每個麥克風(fēng)陣列內(nèi)的相應(yīng)多個麥克風(fēng)的頻譜特征的對的相應(yīng)集合。硬件處理器還被配置為運行被存儲在存儲器設(shè)備上的程序代碼,以將頻譜特征的對的相應(yīng)集合輸入到神經(jīng)網(wǎng)絡(luò)中,以將頻譜特征編碼成深度特征,并對深度特征進(jìn)行解碼,以從神經(jīng)網(wǎng)絡(luò)輸出一個或多個聲音源的至少一個位置表示。
從以下將結(jié)合附圖閱讀的對其說明性實施例的詳細(xì)描述,這些和其他特征和優(yōu)點將變得明顯。
附圖說明
以下描述將參考以下附圖提供優(yōu)選實施例的細(xì)節(jié),在附圖中:
圖1是示出了根據(jù)本發(fā)明的實施例的示例性處理系統(tǒng)的框圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機器公司,未經(jīng)國際商業(yè)機器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010783855.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





