[發(fā)明專利]小語(yǔ)種語(yǔ)音語(yǔ)料擴(kuò)增方法、裝置及電子設(shè)備和存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202110325580.1 | 申請(qǐng)日: | 2021-03-26 |
| 公開(公告)號(hào): | CN113077783B | 公開(公告)日: | 2023-07-21 |
| 發(fā)明(設(shè)計(jì))人: | 白海釧;杜楊洲 | 申請(qǐng)(專利權(quán))人: | 聯(lián)想(北京)有限公司 |
| 主分類號(hào): | G10L15/02 | 分類號(hào): | G10L15/02;G10L15/06;G10L15/16;G10L17/04;G10L17/18;G10L25/18;G10L25/30 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 張靜 |
| 地址: | 100085 北京市海淀*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語(yǔ)種 語(yǔ)音 語(yǔ)料 擴(kuò)增 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)實(shí)施例公開了一種小語(yǔ)種語(yǔ)音語(yǔ)料擴(kuò)增方法、裝置及電子設(shè)備和存儲(chǔ)介質(zhì),將小語(yǔ)種語(yǔ)料庫(kù)中的語(yǔ)音的頻譜特征轉(zhuǎn)換為多個(gè)層級(jí)的參數(shù),其中至少部分層級(jí)的參數(shù)中,不同層級(jí)的參數(shù)一一對(duì)應(yīng)不同的聲紋屬性,通過對(duì)至少一個(gè)層級(jí)的參數(shù)進(jìn)行調(diào)整,得到調(diào)整后的多個(gè)層級(jí)的參數(shù),然后利用調(diào)整后的多個(gè)層級(jí)的參數(shù)生成新的頻譜特征;基于新的頻譜特征生成新語(yǔ)音作為擴(kuò)增的小語(yǔ)種語(yǔ)音語(yǔ)料。由于對(duì)至少部分層級(jí)的參數(shù)中的任意一個(gè)層級(jí)的參數(shù)進(jìn)行調(diào)整時(shí),僅該任意一個(gè)層級(jí)的參數(shù)對(duì)應(yīng)的聲紋屬性改變,其它層級(jí)的參數(shù)對(duì)應(yīng)的聲紋屬性保持不變,可以實(shí)現(xiàn)對(duì)小語(yǔ)種語(yǔ)料庫(kù)中的語(yǔ)音語(yǔ)料進(jìn)行多樣化擴(kuò)增。
技術(shù)領(lǐng)域
本申請(qǐng)涉及語(yǔ)音處理技術(shù)領(lǐng)域,更具體地說,涉及一種小語(yǔ)種語(yǔ)音語(yǔ)料擴(kuò)增方法、裝置及電子設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù)
對(duì)語(yǔ)音識(shí)別(Automatic?Speech?Recognition,ASR)模型來(lái)說,訓(xùn)練數(shù)據(jù)需要大規(guī)模帶有文本標(biāo)注的語(yǔ)音數(shù)據(jù)。然而,由于語(yǔ)音數(shù)據(jù)的收集需要耗費(fèi)大量人力、物力和時(shí)間,尤其是小語(yǔ)種數(shù)據(jù)錄制和標(biāo)注的難度更高。
目前,為了獲取訓(xùn)練ASR模型所需的大量的語(yǔ)音數(shù)據(jù),通常是對(duì)已有的語(yǔ)音數(shù)據(jù)進(jìn)行處理(比如,速度擾動(dòng)、加噪、加混響等)來(lái)提升數(shù)據(jù)量,但這種簡(jiǎn)單處理得到的數(shù)據(jù)類型不夠豐富,對(duì)ASR模型性能的提升有限。
因此,如何快速獲得數(shù)據(jù)類型豐富的語(yǔ)音數(shù)據(jù)成為亟待解決的技術(shù)問題。
發(fā)明內(nèi)容
本申請(qǐng)的目的是提供一種小語(yǔ)種語(yǔ)音語(yǔ)料擴(kuò)增方法、裝置及電子設(shè)備和存儲(chǔ)介質(zhì),包括如下技術(shù)方案:
一種小語(yǔ)種語(yǔ)音語(yǔ)料擴(kuò)增方法,所述方法包括:
獲得小語(yǔ)種語(yǔ)料庫(kù)中的第一語(yǔ)音的第一頻譜特征;
對(duì)所述第一頻譜特征進(jìn)行處理,得到與所述第一頻譜特征對(duì)應(yīng)的多個(gè)層級(jí)的參數(shù);其中,每個(gè)層級(jí)的參數(shù)對(duì)應(yīng)至少一個(gè)聲紋屬性,至少部分層級(jí)的參數(shù)中,不同層級(jí)的參數(shù)一一對(duì)應(yīng)不同的聲紋屬性;
對(duì)所述多個(gè)層級(jí)的參數(shù)中的至少一個(gè)層級(jí)的參數(shù)進(jìn)行調(diào)整,得到調(diào)整后的多個(gè)層級(jí)的參數(shù);其中,對(duì)所述至少部分層級(jí)的參數(shù)中的任意一個(gè)層級(jí)的參數(shù)進(jìn)行調(diào)整時(shí),所述任意一個(gè)層級(jí)的參數(shù)對(duì)應(yīng)的聲紋屬性的值改變,所述多個(gè)層級(jí)的參數(shù)中的其它層級(jí)的參數(shù)對(duì)應(yīng)的聲紋屬性的值保持不變;
利用所述調(diào)整后的多個(gè)層級(jí)的參數(shù)生成第二頻譜特征;
基于所述第二頻譜特征生成第二語(yǔ)音,對(duì)所述第二語(yǔ)音進(jìn)行存儲(chǔ)以獲得擴(kuò)增的小語(yǔ)種語(yǔ)音語(yǔ)料。
上述方法,優(yōu)選的,對(duì)所述第一頻譜特征進(jìn)行處理,得到與所述第一頻譜特征對(duì)應(yīng)的多個(gè)層級(jí)的參數(shù),對(duì)所述多個(gè)層級(jí)的參數(shù)中的至少一個(gè)層級(jí)的參數(shù)進(jìn)行調(diào)整,得到調(diào)整后的多個(gè)層級(jí)的參數(shù),利用所述調(diào)整后的多個(gè)層級(jí)的參數(shù)生成第二頻譜特征,包括:
利用聲紋屬性解耦表示模型中的編碼模塊對(duì)所述第一頻譜特征進(jìn)行編碼,得到所述多個(gè)層級(jí)的參數(shù);
對(duì)所述多個(gè)層級(jí)的參數(shù)中的至少一個(gè)層級(jí)的參數(shù)進(jìn)行調(diào)整,得到調(diào)整后的多個(gè)層級(jí)的參數(shù);
利用所述聲紋屬性解耦表示模型中的解碼器對(duì)所述調(diào)整后的多個(gè)層級(jí)的參數(shù)進(jìn)行解碼,得到所述第二頻譜特征。
上述方法,優(yōu)選的,所述利用聲紋屬性解耦表示模型中的編碼模塊對(duì)所述第一頻譜特征進(jìn)行編碼,包括:
將所述第一頻譜特征轉(zhuǎn)換為圖像;利用所述聲紋屬性解耦表示模型中的編碼模塊對(duì)所述圖像進(jìn)行編碼;
或者,
利用所述聲紋屬性解耦表示模型中的編碼模塊直接對(duì)所述第一頻譜特征進(jìn)行編碼。
上述方法,優(yōu)選的,所述聲紋屬性解耦表示模型通過如下方式訓(xùn)練得到:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于聯(lián)想(北京)有限公司,未經(jīng)聯(lián)想(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110325580.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:面向多用戶的信息傳遞方法及裝置
- 下一篇:一種肖特基二極管的制造方法
- 支持多語(yǔ)種接口的電子裝置及方法
- 一種模塊化語(yǔ)種解析裝置及其實(shí)現(xiàn)方法
- 一種終端語(yǔ)種的配置方法及裝置
- 一種多語(yǔ)種文字歸碼轉(zhuǎn)傳裝置及方法
- 一種語(yǔ)種識(shí)別方法、裝置、翻譯機(jī)、介質(zhì)和設(shè)備
- 自動(dòng)識(shí)別語(yǔ)種的翻譯方法、裝置及設(shè)備
- 一種語(yǔ)種識(shí)別模型訓(xùn)練、語(yǔ)種識(shí)別的方法和相關(guān)裝置
- 語(yǔ)種識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 語(yǔ)種識(shí)別方法
- 人機(jī)對(duì)話方法、裝置、計(jì)算機(jī)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 一種語(yǔ)料提取器及提取語(yǔ)料的方法
- 軍事信息語(yǔ)料庫(kù)構(gòu)建方法及系統(tǒng)
- 待標(biāo)注語(yǔ)料的分配方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 語(yǔ)料泛化方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 語(yǔ)料數(shù)據(jù)的處理方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備
- 一種擴(kuò)展語(yǔ)料挖掘方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 語(yǔ)料生成方法、語(yǔ)料生成裝置、和存儲(chǔ)介質(zhì)
- 短語(yǔ)語(yǔ)料獲取方法及短語(yǔ)語(yǔ)料獲取裝置
- 一種語(yǔ)料分類方法、裝置及服務(wù)器
- 一種輸入方法、裝置和電子設(shè)備
- 指數(shù)擴(kuò)增和線性擴(kuò)增的聯(lián)合擴(kuò)增
- 全基因組擴(kuò)增方法及其應(yīng)用
- BIM基因突變檢測(cè)方法和試劑盒
- 核酸擴(kuò)增反應(yīng)用容器、核酸擴(kuò)增反應(yīng)用筒及核酸擴(kuò)增反應(yīng)用筒試劑盒
- 胎兒染色體有無(wú)非整倍性的檢測(cè)方法
- 一種HLA高分辨基因位點(diǎn)的快速擴(kuò)增診斷試劑盒及擴(kuò)增方法
- 用于確定從全血分離血漿的效率的方法和試劑盒
- 一種用于從血漿中直接擴(kuò)增艾滋病病毒基因組的核酸組合物及擴(kuò)增測(cè)序方法
- 一種優(yōu)化環(huán)介導(dǎo)等溫?cái)U(kuò)增反應(yīng)的方法
- 一種核酸擴(kuò)增用的立式微流控芯片





