[發(fā)明專利]一種混合語(yǔ)音信號(hào)的處理方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010877506.6 | 申請(qǐng)日: | 2020-08-27 |
| 公開(kāi)(公告)號(hào): | CN111968668A | 公開(kāi)(公告)日: | 2020-11-20 |
| 發(fā)明(設(shè)計(jì))人: | 張譽(yù)懷 | 申請(qǐng)(專利權(quán))人: | 深圳壹賬通智能科技有限公司 |
| 主分類號(hào): | G10L21/0272 | 分類號(hào): | G10L21/0272;G10L21/0308;G10L25/18;G10L25/21;G10L25/24;G10L25/51 |
| 代理公司: | 深圳中一聯(lián)合知識(shí)產(chǎn)權(quán)代理有限公司 44414 | 代理人: | 張全文 |
| 地址: | 518000 廣東省深圳市*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 混合 語(yǔ)音 信號(hào) 處理 方法 裝置 | ||
本申請(qǐng)適用于人工智能中的語(yǔ)音處理的技術(shù)領(lǐng)域,提供了一種混合語(yǔ)音信號(hào)的處理方法及系統(tǒng),所述處理方法包括:獲取混合語(yǔ)音信號(hào)對(duì)應(yīng)的多個(gè)第一聽(tīng)覺(jué)片段;在多個(gè)所述第一聽(tīng)覺(jué)片段中,選擇一個(gè)符合預(yù)設(shè)條件的所述第一聽(tīng)覺(jué)片段,作為核心片段;根據(jù)所述核心片段的基音周期和每個(gè)所述第一聽(tīng)覺(jué)片段的片段參數(shù),將核心片段與除去所述核心片段的剩余第一聽(tīng)覺(jué)片段匹配,得到目標(biāo)聲源的目標(biāo)聽(tīng)覺(jué)片段,所述片段參數(shù)包括音色和梅爾頻率倒譜系數(shù)。通過(guò)上述方式實(shí)現(xiàn),在混合語(yǔ)音信號(hào)中,分別根據(jù)目標(biāo)聲源的基音周期以及片段參數(shù),匹配目標(biāo)聲源的目標(biāo)聽(tīng)覺(jué)片段。提高了匹配目標(biāo)聽(tīng)覺(jué)片段的精準(zhǔn)度。
技術(shù)領(lǐng)域
本申請(qǐng)屬于人工智能中的語(yǔ)音處理的技術(shù)領(lǐng)域,尤其涉及一種混合語(yǔ)音信號(hào)的處理方法及裝置。
背景技術(shù)
人的聽(tīng)覺(jué)系統(tǒng)能夠在噪聲環(huán)境中跟蹤自己感興趣的語(yǔ)音信號(hào),即使多種聲音同時(shí)存在,也能聽(tīng)取所需要的內(nèi)容。聽(tīng)覺(jué)場(chǎng)景分析正是在這一聽(tīng)覺(jué)生理現(xiàn)象上提出的理論。聽(tīng)覺(jué)場(chǎng)景分析技術(shù)利用計(jì)算機(jī)技術(shù)通過(guò)對(duì)人類心理過(guò)程及聽(tīng)覺(jué)生理機(jī)能的模擬,最終使計(jì)算機(jī)具備像人耳一樣處理聲音的能力。聽(tīng)覺(jué)場(chǎng)景分析技術(shù)具體通過(guò)聽(tīng)覺(jué)外圍分析、語(yǔ)音分離特征提取、聽(tīng)覺(jué)分段、語(yǔ)音重組以及語(yǔ)音合成,實(shí)現(xiàn)混合語(yǔ)音分離的功能。
但是,在傳統(tǒng)的聽(tīng)覺(jué)場(chǎng)景分析技術(shù)中,針對(duì)多人混合語(yǔ)音分離的效果往往較差。其原因在于:在語(yǔ)音重組時(shí),多個(gè)聽(tīng)覺(jué)片段(聽(tīng)覺(jué)片段是指由多個(gè)時(shí)頻單元組成的片段)僅僅依據(jù)能量特性進(jìn)行組合,以分離出多個(gè)聽(tīng)覺(jué)流(聽(tīng)覺(jué)流是指由多個(gè)聽(tīng)覺(jué)片段組成而成的聲音信息)。由于語(yǔ)音信號(hào)中,不僅包括目標(biāo)用戶發(fā)出的語(yǔ)音信息,也包括其他用戶發(fā)出的語(yǔ)音信息或環(huán)境噪音。若僅僅通過(guò)能量特征將多個(gè)聽(tīng)覺(jué)片段進(jìn)行組合,容易導(dǎo)致目標(biāo)聽(tīng)覺(jué)流中包含非目標(biāo)用戶對(duì)應(yīng)的聽(tīng)覺(jué)片段。因此傳統(tǒng)的聽(tīng)覺(jué)場(chǎng)景分析技術(shù),匹配目標(biāo)聽(tīng)覺(jué)片段的精準(zhǔn)度較低。
發(fā)明內(nèi)容
有鑒于此,本申請(qǐng)實(shí)施例提供了一種混合語(yǔ)音信號(hào)的處理方法及裝置,可以解決由于語(yǔ)音信號(hào)中,不僅包括目標(biāo)用戶發(fā)出的語(yǔ)音信息,也包括其他用戶發(fā)出的語(yǔ)音信息或環(huán)境噪音。若僅僅通過(guò)能量特征將多個(gè)聽(tīng)覺(jué)片段進(jìn)行組合。容易導(dǎo)致目標(biāo)聽(tīng)覺(jué)流中包含非目標(biāo)用戶對(duì)應(yīng)的聽(tīng)覺(jué)片段。因此傳統(tǒng)的聽(tīng)覺(jué)場(chǎng)景分析技術(shù),匹配目標(biāo)聽(tīng)覺(jué)片段的精準(zhǔn)度較低的技術(shù)問(wèn)題。
本申請(qǐng)實(shí)施例的第一方面提供了一種混合語(yǔ)音信號(hào)的處理方法,所述處理方法包括:
獲取混合語(yǔ)音信號(hào)對(duì)應(yīng)的多個(gè)第一聽(tīng)覺(jué)片段,其中,所述第一聽(tīng)覺(jué)片段是指由多個(gè)時(shí)頻單元組成的片段;
在多個(gè)所述第一聽(tīng)覺(jué)片段中,選擇一個(gè)符合預(yù)設(shè)條件的所述第一聽(tīng)覺(jué)片段,作為核心片段;
根據(jù)所述核心片段的基音周期和每個(gè)所述第一聽(tīng)覺(jué)片段的片段參數(shù),將核心片段與除去所述核心片段的剩余第一聽(tīng)覺(jué)片段匹配,得到目標(biāo)聲源的目標(biāo)聽(tīng)覺(jué)片段,所述片段參數(shù)包括音色和梅爾頻率倒譜系數(shù)。
本申請(qǐng)實(shí)施例的第二方面提供了一種混合語(yǔ)音信號(hào)的處理裝置,所述處理裝置包括:
獲取單元,用于獲取混合語(yǔ)音信號(hào)對(duì)應(yīng)的多個(gè)第一聽(tīng)覺(jué)片段,其中,所述第一聽(tīng)覺(jué)片段是指由多個(gè)時(shí)頻單元組成的片段;
判斷單元,用于在多個(gè)所述第一聽(tīng)覺(jué)片段中,選擇一個(gè)符合預(yù)設(shè)條件的所述第一聽(tīng)覺(jué)片段,作為核心片段;
匹配單元,用于根據(jù)所述核心片段的基音周期和每個(gè)所述第一聽(tīng)覺(jué)片段的片段參數(shù),將核心片段與除去所述核心片段的剩余第一聽(tīng)覺(jué)片段匹配,得到目標(biāo)聲源的目標(biāo)聽(tīng)覺(jué)片段,所述片段參數(shù)包括音色和梅爾頻率倒譜系數(shù)。
本申請(qǐng)實(shí)施例的第三方面提供了一種終端設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面所述方法的步驟。
本申請(qǐng)實(shí)施例的第四方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳壹賬通智能科技有限公司,未經(jīng)深圳壹賬通智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010877506.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào),以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào),例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng),例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式,例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 信號(hào)調(diào)制方法、信號(hào)調(diào)制裝置、信號(hào)解調(diào)方法和信號(hào)解調(diào)裝置
- 亮度信號(hào)/色信號(hào)分離裝置和亮度信號(hào)/色信號(hào)分離方法
- 信號(hào)調(diào)制方法、信號(hào)調(diào)制裝置、信號(hào)解調(diào)方法和信號(hào)解調(diào)裝置
- 信號(hào)調(diào)制方法、信號(hào)調(diào)制裝置、信號(hào)解調(diào)方法和信號(hào)解調(diào)裝置
- 雙耳信號(hào)的信號(hào)生成
- 雙耳信號(hào)的信號(hào)生成
- 信號(hào)處理裝置、信號(hào)處理方法、信號(hào)處理程序
- USBTYPEC信號(hào)轉(zhuǎn)HDMI信號(hào)的信號(hào)轉(zhuǎn)換線
- 信號(hào)盒(信號(hào)轉(zhuǎn)換)
- 信號(hào)調(diào)制方法、信號(hào)調(diào)制裝置、信號(hào)解調(diào)方法和信號(hào)解調(diào)裝置





