[發(fā)明專利]語(yǔ)音分離方法、語(yǔ)音識(shí)別方法及相關(guān)設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 201910745682.1 | 申請(qǐng)日: | 2019-04-12 |
| 公開(kāi)(公告)號(hào): | CN110459237B | 公開(kāi)(公告)日: | 2020-11-20 |
| 發(fā)明(設(shè)計(jì))人: | 陳聯(lián)武;于蒙;蘇丹;俞棟 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G10L21/0272 | 分類號(hào): | G10L21/0272;G10L21/0308;G10L25/30;G10L21/0216;G10L21/0208 |
| 代理公司: | 深圳市隆天聯(lián)鼎知識(shí)產(chǎn)權(quán)代理有限公司 44232 | 代理人: | 劉抗美 |
| 地址: | 518000 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語(yǔ)音 分離 方法 識(shí)別 相關(guān) 設(shè)備 | ||
本發(fā)明實(shí)施例提供了一種語(yǔ)音分離方法、語(yǔ)音識(shí)別方法及相關(guān)設(shè)備。該語(yǔ)音分離方法包括:獲取包括至少兩個(gè)目標(biāo)對(duì)象的語(yǔ)音信號(hào)的混合語(yǔ)音信號(hào);獲取所述混合語(yǔ)音信號(hào)對(duì)應(yīng)的單通道頻譜特征和多通道方位特征;通過(guò)重疊判斷模型對(duì)所述單通道頻譜特征和多通道方位特征進(jìn)行處理,獲得所述混合語(yǔ)音信號(hào)中的目標(biāo)對(duì)象之間是否存在重疊的判斷結(jié)果,所述重疊判斷模型用于判斷目標(biāo)對(duì)象之間是否存在空間上的重疊;根據(jù)所述判斷結(jié)果確定所述混合語(yǔ)音信號(hào)中各目標(biāo)對(duì)象的目標(biāo)語(yǔ)音頻譜掩碼矩陣。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體而言,涉及一種語(yǔ)音分離方法、語(yǔ)音識(shí)別方法、語(yǔ)音分離裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備。
背景技術(shù)
在嘈雜的聲學(xué)環(huán)境中,比如在雞尾酒會(huì)中,往往同時(shí)存在著許多不同的聲源:多個(gè)人同時(shí)說(shuō)話的聲音、餐具的碰撞聲、音樂(lè)聲等雜音,以及這些聲音經(jīng)墻壁和室內(nèi)的物體反射所產(chǎn)生的反射聲等。在聲波的傳遞過(guò)程中,不同聲源所發(fā)出的聲波之間(不同人說(shuō)話的聲音以及其他物體振動(dòng)發(fā)出的聲音)以及直達(dá)聲和反射聲之間會(huì)在傳播介質(zhì)(通常是空氣)中相疊加而形成復(fù)雜的混合聲波。
因此,在達(dá)到聽(tīng)者外耳道的混合聲波中已經(jīng)不存在獨(dú)立的與多個(gè)聲源相對(duì)應(yīng)的聲波了。然而,在這種聲學(xué)環(huán)境下,人類的聽(tīng)覺(jué)系統(tǒng)卻能在一定程度上聽(tīng)清楚其所注意的目標(biāo)語(yǔ)音,而機(jī)器在這方面的能力還不如人類。
因此,在語(yǔ)音信號(hào)處理領(lǐng)域,如何能夠?qū)崿F(xiàn)在嘈雜環(huán)境中分離出目標(biāo)語(yǔ)音的功能是目前亟待解決的技術(shù)問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的在于提供一種語(yǔ)音分離方法、語(yǔ)音識(shí)別方法及相關(guān)設(shè)備,進(jìn)而至少在一定程度上實(shí)現(xiàn)在嘈雜環(huán)境中分離出目標(biāo)語(yǔ)音。
本發(fā)明的其他特性和優(yōu)點(diǎn)將通過(guò)下面的詳細(xì)描述變得顯然,或部分地通過(guò)本發(fā)明的實(shí)踐而習(xí)得。
根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種語(yǔ)音分離方法,所述方法包括:獲取包括至少兩個(gè)目標(biāo)對(duì)象的語(yǔ)音信號(hào)的混合語(yǔ)音信號(hào);獲取所述混合語(yǔ)音信號(hào)對(duì)應(yīng)的全語(yǔ)音頻段的單通道頻譜特征和多通道方位特征,所述全語(yǔ)音頻段包括K個(gè)子頻段,K為大于等于2的正整數(shù);從所述全語(yǔ)音頻段的單通道頻譜特征和多通道方位特征中,提取K個(gè)子頻段的單通道頻譜特征和多通道方位特征;通過(guò)K個(gè)第一神經(jīng)網(wǎng)絡(luò)對(duì)所述K個(gè)子頻段的單通道頻譜特征和多通道方位特征進(jìn)行處理,獲得K個(gè)第一特征向量;根據(jù)所述K個(gè)第一特征向量生成合并特征向量;通過(guò)第一預(yù)測(cè)網(wǎng)絡(luò)對(duì)所述合并特征向量進(jìn)行處理,獲得所述混合語(yǔ)音信號(hào)中各目標(biāo)對(duì)象的第一語(yǔ)音頻譜掩碼矩陣。
在本發(fā)明的一些示例性實(shí)施例中,所述方法還包括:根據(jù)各目標(biāo)對(duì)象的第一語(yǔ)音頻譜掩碼矩陣和所述混合語(yǔ)音信號(hào),獲得各目標(biāo)對(duì)象的第一語(yǔ)音頻譜。
在本發(fā)明的一些示例性實(shí)施例中,K的取值范圍為[2,8]之間的正整數(shù)。
在本發(fā)明的一些示例性實(shí)施例中,所述單通道頻譜特征包括對(duì)數(shù)功率譜;所述多通道方位特征包括多通道相位差特征和/或多通道幅度差特征。
在本發(fā)明的一些示例性實(shí)施例中,K個(gè)第一神經(jīng)網(wǎng)絡(luò)中的各第一神經(jīng)網(wǎng)絡(luò)包括LSTM、DNN、CNN中的任意一個(gè)或者多個(gè)。
根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種語(yǔ)音分離方法,所述方法包括:獲取包括至少兩個(gè)目標(biāo)對(duì)象的語(yǔ)音信號(hào)的混合語(yǔ)音信號(hào);獲取所述混合語(yǔ)音信號(hào)對(duì)應(yīng)的單通道頻譜特征和多通道方位特征;通過(guò)重疊判斷模型對(duì)所述單通道頻譜特征和多通道方位特征進(jìn)行處理,獲得所述混合語(yǔ)音信號(hào)中的目標(biāo)對(duì)象之間是否存在重疊的判斷結(jié)果,所述重疊判斷模型用于判斷目標(biāo)對(duì)象之間是否存在空間上的重疊;根據(jù)所述判斷結(jié)果確定所述混合語(yǔ)音信號(hào)中各目標(biāo)對(duì)象的目標(biāo)語(yǔ)音頻譜掩碼矩陣。
在本發(fā)明的一些示例性實(shí)施例中,根據(jù)所述判斷結(jié)果確定所述混合語(yǔ)音信號(hào)中各目標(biāo)對(duì)象的目標(biāo)語(yǔ)音頻譜掩碼矩陣,包括:若所述判斷結(jié)果為目標(biāo)對(duì)象之間不存在重疊,則通過(guò)多通道分離網(wǎng)絡(luò)對(duì)所述單通道頻譜特征和多通道方位特征進(jìn)行處理,獲得所述目標(biāo)語(yǔ)音頻譜掩碼矩陣。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910745682.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào),以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào),例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng),例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式,例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





