[發(fā)明專(zhuān)利]用于轉(zhuǎn)換輸入音頻信號(hào)的音頻信號(hào)處理系統(tǒng)及方法在審
| 申請(qǐng)?zhí)枺?/td> | 201980025148.1 | 申請(qǐng)日: | 2019-03-07 |
| 公開(kāi)(公告)號(hào): | CN111954904A | 公開(kāi)(公告)日: | 2020-11-17 |
| 發(fā)明(設(shè)計(jì))人: | J·勒魯克斯;J·R·赫爾歇;王中秋;G·P·維歇恩 | 申請(qǐng)(專(zhuān)利權(quán))人: | 三菱電機(jī)株式會(huì)社 |
| 主分類(lèi)號(hào): | G10L21/0272 | 分類(lèi)號(hào): | G10L21/0272;G10L25/30 |
| 代理公司: | 北京三友知識(shí)產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 張美芹;劉久亮 |
| 地址: | 日本*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 轉(zhuǎn)換 輸入 音頻 信號(hào) 處理 系統(tǒng) 方法 | ||
關(guān)于用于轉(zhuǎn)換輸入音頻信號(hào)的音頻信號(hào)處理系統(tǒng)的系統(tǒng)和方法。處理器通過(guò)以下來(lái)實(shí)現(xiàn)模塊的步驟:將輸入音頻信號(hào)輸入到頻譜圖估計(jì)器中以提取音頻特征序列,并對(duì)所述音頻特征序列進(jìn)行處理,以輸出估計(jì)頻譜圖集合。使用頻譜圖細(xì)化模塊處理所述估計(jì)頻譜圖集合和所述音頻特征序列,以輸出細(xì)化頻譜圖集合。其中所述頻譜圖細(xì)化模塊的所述處理基于迭代重構(gòu)算法。使用信號(hào)細(xì)化模塊處理一個(gè)或多個(gè)目標(biāo)音頻信號(hào)的細(xì)化頻譜圖集合,以獲得目標(biāo)音頻信號(hào)估計(jì)。輸出接口輸出優(yōu)化的目標(biāo)音頻信號(hào)估計(jì)。其中通過(guò)使用存儲(chǔ)在存儲(chǔ)器中的優(yōu)化器使誤差最小化來(lái)優(yōu)化所述模塊。
技術(shù)領(lǐng)域
本公開(kāi)總體上涉及音頻信號(hào),更具體地涉及將端對(duì)端方法用于單信道非特定人多講話(huà)者語(yǔ)音分離。
背景技術(shù)
在某些傳統(tǒng)語(yǔ)音分離和語(yǔ)音增強(qiáng)應(yīng)用中,在諸如短時(shí)傅立葉變換(STFT)域之類(lèi)的時(shí)頻表征中完成處理。STFT獲得信號(hào)的復(fù)域頻譜時(shí)間(或時(shí)頻)表征。觀(guān)察到的噪聲信號(hào)的STFT可以寫(xiě)為目標(biāo)語(yǔ)音信號(hào)的STFT和噪聲信號(hào)的STFT之和。信號(hào)的STFT是復(fù)合的,并且在復(fù)域中求和。
但是,大多數(shù)這些傳統(tǒng)語(yǔ)音分離和語(yǔ)音增強(qiáng)應(yīng)用僅對(duì)時(shí)頻(T-F)域中的幅度進(jìn)行分離,并直接使用混合相位進(jìn)行時(shí)域重新合成,這在很大程度上是因?yàn)橄辔槐旧矸浅kS機(jī)且難以實(shí)現(xiàn)被增強(qiáng)。眾所周知,這種方法會(huì)引起相位不一致的問(wèn)題,對(duì)于其中連續(xù)幀之間通常至少有一半重疊的語(yǔ)音處理而言尤其如此。這種重疊使得語(yǔ)音信號(hào)的STFT表征高度冗余。結(jié)果,使用估計(jì)的幅度和混合相位獲得的增強(qiáng)的STFT表征將不在一致的STFT域中,這意味著不能保證存在具有該STFT表征的時(shí)域信號(hào)。
換句話(huà)說(shuō),就這些傳統(tǒng)方法而言,相位被忽略了,并且這些傳統(tǒng)方法假設(shè)觀(guān)察到的信號(hào)的STFT的幅度等于目標(biāo)音頻和噪聲信號(hào)的STFT的幅度之和,這是粗略或比較差的假設(shè)。因此,在傳統(tǒng)語(yǔ)音分離和語(yǔ)音增強(qiáng)應(yīng)用中,重點(diǎn)是在給定噪聲語(yǔ)音信號(hào)作為輸入的情況下對(duì)“目標(biāo)語(yǔ)音”的幅度預(yù)測(cè),或者在給定混合的音頻源作為輸入的情況下對(duì)“目標(biāo)源”的幅度預(yù)測(cè)。根據(jù)這些傳統(tǒng)語(yǔ)音分離和語(yǔ)音增強(qiáng)應(yīng)用,從STFT重構(gòu)時(shí)域增強(qiáng)信號(hào)期間,將噪聲信號(hào)的相位用作增強(qiáng)語(yǔ)音STFT的估計(jì)相位。
因此,需要將端對(duì)端方法用于單信道非特定人多講話(huà)者語(yǔ)音分離,以改善語(yǔ)音分離和語(yǔ)音增強(qiáng)應(yīng)用。
發(fā)明內(nèi)容
本公開(kāi)總體上涉及音頻信號(hào),更具體地涉及將端對(duì)端方法用于單信道非特定人多講話(huà)者語(yǔ)音分離。
本公開(kāi)的一些實(shí)施方式將端對(duì)端方法用于單信道非特定人多講話(huà)者語(yǔ)音分離,其中使用時(shí)頻(TF)掩蔽的頻譜圖估計(jì)、短時(shí)傅立葉變換(STFT)和STFT的逆變換被表示為深度網(wǎng)絡(luò)內(nèi)的層。也可以考慮其它類(lèi)型的頻譜圖估計(jì)以及其它時(shí)頻變換和逆變換。
本公開(kāi)的一些實(shí)施方式使用端對(duì)端語(yǔ)音分離算法,該算法經(jīng)由時(shí)頻(T-F)掩蔽通過(guò)迭代相位重構(gòu)以進(jìn)行信號(hào)電平逼近來(lái)進(jìn)行訓(xùn)練。通過(guò)實(shí)驗(yàn)實(shí)現(xiàn)了這種端對(duì)端語(yǔ)音分離算法。在實(shí)驗(yàn)過(guò)程中,有幾種方法對(duì)T-F域中的幅度進(jìn)行了分離,并直接將混合相位用于時(shí)域重新合成,這在很大程度上是因?yàn)殡y以估計(jì)相位。但是,這些特定方法導(dǎo)致相位不一致的問(wèn)題,對(duì)于語(yǔ)音處理來(lái)說(shuō)尤為如此,在語(yǔ)音處理中,連續(xù)幀之間通常至少有一半重疊。這種重疊使得語(yǔ)音信號(hào)的短時(shí)傅立葉變換(STFT)表征高度冗余。因此,使用估計(jì)的幅度和混合相位獲得的增強(qiáng)STFT表征不在一致的STFT域內(nèi),這意味著不能保證存在具有該STFT表征的時(shí)域信號(hào)。
為了提高一致性,實(shí)驗(yàn)使用著重于迭代方法(例如使用經(jīng)典的Griffin-Lim算法、多輸入頻譜圖反演(MISI)算法、使用迭代重構(gòu)的知情源分離(ISSIR)以及一致維納(Wiener)濾波)的一些方法進(jìn)行,這些迭代方法通過(guò)迭代地進(jìn)行STFT和iSTFT,能夠從混合相位開(kāi)始在一定程度上恢復(fù)更一致的相位,并有良好的估計(jì)幅度。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于三菱電機(jī)株式會(huì)社,未經(jīng)三菱電機(jī)株式會(huì)社許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980025148.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:牙齦炎診斷方法、用途和試劑盒
- 下一篇:用于流體泵的泵殼體裝置和流體泵
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào),以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào),例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng),例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式,例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理
- 圖像轉(zhuǎn)換設(shè)備、圖像轉(zhuǎn)換電路及圖像轉(zhuǎn)換方法
- 數(shù)模轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 轉(zhuǎn)換設(shè)備和轉(zhuǎn)換方法
- 占空比轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 通信轉(zhuǎn)換方法、轉(zhuǎn)換裝置及轉(zhuǎn)換系統(tǒng)
- 模數(shù)轉(zhuǎn)換和模數(shù)轉(zhuǎn)換方法
- 轉(zhuǎn)換模塊以及轉(zhuǎn)換電路
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件和熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊
- 自動(dòng)配置藍(lán)牙A2DP傳輸音頻編碼格式的方法和系統(tǒng)
- 一種多路音頻處理方法、音頻播放終端及音頻接收裝置
- 一種音頻處理方法、裝置及終端設(shè)備
- 一種音頻質(zhì)量的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種音頻播放方法、裝置、以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻錄制系統(tǒng)
- 一種音頻共享系統(tǒng)及方法
- 音頻樣本生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 音頻處理方法和裝置





