[發(fā)明專利]通過幀插入對語音數(shù)據(jù)進行數(shù)據(jù)增強在審
| 申請?zhí)枺?/td> | 202010749013.4 | 申請日: | 2020-07-30 |
| 公開(公告)號: | CN112435654A | 公開(公告)日: | 2021-03-02 |
| 發(fā)明(設(shè)計)人: | 長野徹;福田隆;鈴木雅之;倉田岳人 | 申請(專利權(quán))人: | 國際商業(yè)機器公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L21/02;G10L25/24;G10L25/30;G10L25/51 |
| 代理公司: | 北京市中咨律師事務(wù)所 11247 | 代理人: | 于靜;楊曉光 |
| 地址: | 美國*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 通過 插入 語音 數(shù)據(jù) 進行 增強 | ||
本發(fā)明涉及通過幀插入對語音數(shù)據(jù)進行數(shù)據(jù)增強。公開了一種用于語音數(shù)據(jù)的數(shù)據(jù)增強的技術(shù)。獲得包括特征幀序列的原始語音數(shù)據(jù)。通過將一個或多個新幀插入所述特征幀序列中來生成所述原始語音數(shù)據(jù)的部分延長的副本。輸出所述部分延長的副本作為增強語音數(shù)據(jù)用于訓(xùn)練聲學模型。
技術(shù)領(lǐng)域
本公開總體上涉及用于語音數(shù)據(jù)的數(shù)據(jù)增強技術(shù),更具體地,涉及用于從原始語音數(shù)據(jù)生成增強數(shù)據(jù)的技術(shù)。
背景技術(shù)
數(shù)據(jù)增強是創(chuàng)建訓(xùn)練數(shù)據(jù)的改變的副本以增加訓(xùn)練數(shù)據(jù)集的數(shù)量的技術(shù)。已經(jīng)提出了幾種用于語音識別的增強技術(shù),包括混響,噪聲添加,音量擾動,編解碼器增強,聲道長度(VTL)擾動,節(jié)奏擾動(tempo perturbation),速度擾動(speed perturbation),語音合成,隨機特征映射等。使用這些增強數(shù)據(jù)用于訓(xùn)練和調(diào)整用于語音識別的聲學模型。
同時,諸如元音之類的特定語音的拉伸是已知的現(xiàn)象,尤其是在諸如自發(fā)性對話之類的非正式對話中。它降低了語音識別的準確性。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的實施例,提供了一種用于語音數(shù)據(jù)的數(shù)據(jù)增強的計算機實現(xiàn)的方法。該方法包括獲得包括特征幀序列的原始語音數(shù)據(jù)。該方法還包括通過將一個或多個新幀插入所述特征幀序列中來生成所述原始語音數(shù)據(jù)的部分延長的副本。該方法還包括輸出所述部分延長的副本作為用于訓(xùn)練聲學模型的增強語音數(shù)據(jù)。
在此也描述和要求保護與本發(fā)明的一個或多個方面有關(guān)的計算機系統(tǒng)和計算機程序產(chǎn)品。
通過本發(fā)明的技術(shù)實現(xiàn)了附加的特征和優(yōu)點。在此詳細描述本發(fā)明的其他實施例和方面,并且將其視為所要求保護的發(fā)明的一部分。
附圖說明
在說明書的結(jié)尾處的權(quán)利要求中特別指出并明確要求保護被視為本發(fā)明的主題。通過以下結(jié)合附圖的詳細描述,本發(fā)明的前述和其他特征和優(yōu)點將變得顯而易見,在附圖中:
圖1示出了根據(jù)本發(fā)明示例性實施例的語音識別系統(tǒng)的框圖,該語音識別系統(tǒng)包括用于增強語音數(shù)據(jù)的數(shù)據(jù)增強模塊,該數(shù)據(jù)增強模塊可用于訓(xùn)練聲學模型;
圖2示出了根據(jù)本發(fā)明示例性實施例的數(shù)據(jù)增強模塊的詳細框圖;
圖3示出了根據(jù)本發(fā)明的特定實施例的將偽幀插入到滿足預(yù)定插入標準的位置中的方式的示意圖;
圖4示出了根據(jù)本發(fā)明示例性實施例的通過將一個或多個偽幀插入原始語音數(shù)據(jù)來生成增強語音數(shù)據(jù)的過程的流程圖;
圖5示出了根據(jù)本發(fā)明示例性實施例的體現(xiàn)數(shù)據(jù)增強的計算機程序產(chǎn)品的偽代碼;以及
圖6示出了根據(jù)本發(fā)明的一個或多個實施例的計算機系統(tǒng)的示意圖。
具體實施方式
現(xiàn)在,將使用特定的實施方式描述本發(fā)明,并且以下描述的實施方式應(yīng)理解為僅是示例,而無意于限制本發(fā)明的范圍。
根據(jù)本發(fā)明的一個或多個實施例針對用于數(shù)據(jù)增強的計算機實現(xiàn)的方法、計算機系統(tǒng)和計算機程序產(chǎn)品,用于基于新穎的延長擾動技術(shù)(prolongation perturbationtechnique)來訓(xùn)練聲學模型,其中原始語音數(shù)據(jù)是在幀級別擴展以生成原始語音數(shù)據(jù)的部分延長的副本作為增強語音數(shù)據(jù)。
在下文中,首先參照圖1、2和3,將描述根據(jù)本發(fā)明示例性實施例的基于新穎的延長擾動技術(shù)從原始語音數(shù)據(jù)生成用于訓(xùn)練聲學模型的增強語音數(shù)據(jù)的計算機系統(tǒng)。然后,參照圖4和圖5,將描述根據(jù)本發(fā)明示例性實施例的基于新穎的延長擾動技術(shù)的用于從原始語音數(shù)據(jù)生成用于訓(xùn)練聲學模型的增強語音數(shù)據(jù)的計算機實現(xiàn)的方法。然后,將描述對根據(jù)本發(fā)明示例性實施方式的新型延長擾動的實驗研究。最后,參照圖6,將描述根據(jù)本發(fā)明的一個或多個實施例的計算機系統(tǒng)的硬件配置。
參照圖1,示出了根據(jù)本發(fā)明示例性實施例的包括數(shù)據(jù)增強模塊130的語音識別系統(tǒng)100的框圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機器公司,未經(jīng)國際商業(yè)機器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010749013.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





