[發(fā)明專利]用于訓(xùn)練聲學(xué)模型的方法和設(shè)備在審
| 申請?zhí)枺?/td> | 201810225109.3 | 申請日: | 2018-03-19 |
| 公開(公告)號: | CN108630198A | 公開(公告)日: | 2018-10-09 |
| 發(fā)明(設(shè)計(jì))人: | 宋仁哲;柳尚賢 | 申請(專利權(quán))人: | 三星電子株式會(huì)社 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16 |
| 代理公司: | 北京銘碩知識產(chǎn)權(quán)代理有限公司 11286 | 代理人: | 張川緒;王兆賡 |
| 地址: | 韓國京畿*** | 國省代碼: | 韓國;KR |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 聲學(xué)模型 方法和設(shè)備 語音序列 構(gòu)建 輸出 更新 | ||
公開一種用于訓(xùn)練聲學(xué)模型的方法和設(shè)備。一種聲學(xué)模型的訓(xùn)練方法包括:基于語音序列來構(gòu)建窗級輸入數(shù)據(jù);將窗級輸入數(shù)據(jù)輸入到聲學(xué)模型;基于聲學(xué)模型的輸出來計(jì)算序列級誤差;基于序列級誤差來獲取窗級誤差;基于窗級誤差來更新聲學(xué)模型。
本申請要求于2017年3月23日提交到韓國知識產(chǎn)權(quán)局的第10-2017-0036644號韓國專利申請和于2017年8月25日提交到韓國知識產(chǎn)權(quán)局的第10-2017-0108060號韓國專利申請的權(quán)益,所述韓國專利申請的全部公開出于所有目的通過引用包含于此。
技術(shù)領(lǐng)域
下面的描述涉及一種用于訓(xùn)練聲學(xué)模型的方法和設(shè)備。
背景技術(shù)
最近,為了嘗試解決將輸入模式分類為預(yù)定組的問題,正在積極地進(jìn)行試圖將人類的有效的模式識別方法應(yīng)用于實(shí)際計(jì)算機(jī)的研究。該研究包括對通過對人類生物神經(jīng)元的特性進(jìn)行建模而獲得的人工神經(jīng)網(wǎng)絡(luò)(ANN)的研究。為了嘗試解決上面的問題,ANN采用嘗試建立在人類的獨(dú)特學(xué)習(xí)能力上的算法。ANN使用該算法在輸入模式與輸出模式之間產(chǎn)生映射,這指示ANN具有學(xué)習(xí)能力。此外,ANN具有基于訓(xùn)練結(jié)果響應(yīng)于未在訓(xùn)練中使用的輸入模式而產(chǎn)生相對正確的輸出的泛化能力。
發(fā)明內(nèi)容
提供本發(fā)明內(nèi)容以簡化的形式介紹在以下具體實(shí)施方式中進(jìn)一步描述的構(gòu)思的選擇。本發(fā)明內(nèi)容既不意在標(biāo)識所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不意在用于幫助確定要求保護(hù)的主題的范圍。
在一個(gè)總體方面,一種聲學(xué)模型的訓(xùn)練方法包括:基于語音序列來構(gòu)建窗級輸入語音數(shù)據(jù);將窗級輸入語音數(shù)據(jù)輸入到聲學(xué)模型;基于聲學(xué)模型的輸出來計(jì)算序列級誤差;基于序列級誤差來獲取窗級誤差;基于窗級誤差來更新聲學(xué)模型。
構(gòu)建窗級輸入數(shù)據(jù)的步驟可包括:從語音序列提取與具有預(yù)定大小的窗對應(yīng)的目標(biāo)數(shù)據(jù)以及與目標(biāo)數(shù)據(jù)鄰近的填充數(shù)據(jù);基于目標(biāo)數(shù)據(jù)和填充數(shù)據(jù)來構(gòu)建窗級輸入數(shù)據(jù)。
填充數(shù)據(jù)可包括:語音序列中的目標(biāo)數(shù)據(jù)之前的第一填充數(shù)據(jù)和語音序列中的目標(biāo)數(shù)據(jù)之后的第二填充數(shù)據(jù)中的至少一個(gè)。
計(jì)算序列級誤差的步驟可包括:基于聲學(xué)模型的輸出來獲取序列級聲學(xué)分?jǐn)?shù);基于序列級聲學(xué)分?jǐn)?shù)和與語音序列相關(guān)聯(lián)的參考句子來計(jì)算序列級誤差。
獲取序列級聲學(xué)分?jǐn)?shù)的步驟可包括:基于聲學(xué)模型的輸出來獲取窗級聲學(xué)分?jǐn)?shù);通過從窗級聲學(xué)分?jǐn)?shù)去除與填充數(shù)據(jù)對應(yīng)的聲學(xué)分?jǐn)?shù)來獲取與目標(biāo)數(shù)據(jù)對應(yīng)的聲學(xué)分?jǐn)?shù);連接與目標(biāo)數(shù)據(jù)對應(yīng)的聲學(xué)分?jǐn)?shù)并獲取序列級聲學(xué)分?jǐn)?shù)。
參考句子可包括:與語音序列相關(guān)聯(lián)的正確句子和與語音序列相關(guān)聯(lián)的錯(cuò)誤句子中的至少一個(gè)。
聲學(xué)模型可被更新,使得窗級誤差被減小。
更新聲學(xué)模型的步驟可包括:基于窗級誤差和填充數(shù)據(jù)來構(gòu)建更新數(shù)據(jù);基于更新數(shù)據(jù)來更新聲學(xué)模型。
填充數(shù)據(jù)可包括:零化數(shù)據(jù)和與對應(yīng)于窗級誤差的窗鄰近的窗的誤差中的任意一個(gè)或二者。
填充數(shù)據(jù)的大小可與包括在窗級輸入數(shù)據(jù)中的填充數(shù)據(jù)的大小對應(yīng)。
聲學(xué)模型可包括遞歸深度神經(jīng)網(wǎng)絡(luò)(RDNN),并且RDNN的展開的長度與窗級輸入數(shù)據(jù)的長度對應(yīng)。
一種可存儲(chǔ)指令的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)由處理器驅(qū)使所述指令時(shí)使得處理器執(zhí)行所述訓(xùn)練方法。
處理器可被驅(qū)使以:構(gòu)建窗級輸入語音數(shù)據(jù),輸入窗級輸入語音數(shù)據(jù),計(jì)算序列級誤差并獲取窗級誤差。
在另一總體方面,一種聲學(xué)模型訓(xùn)練設(shè)備包括:至少一個(gè)處理器;存儲(chǔ)器,包括能夠由處理器讀取的指令,其中,響應(yīng)于所述指令由處理器執(zhí)行,處理器被配置為:基于語音序列來構(gòu)建窗級輸入語音數(shù)據(jù),將窗級輸入語音數(shù)據(jù)輸入到聲學(xué)模型,基于聲學(xué)模型的輸出來計(jì)算序列級誤差,基于序列級誤差來獲取窗級誤差,并基于窗級誤差來更新聲學(xué)模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于三星電子株式會(huì)社,未經(jīng)三星電子株式會(huì)社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810225109.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于語音識別設(shè)備的補(bǔ)償裝置和方法
- 聲學(xué)模型合并方法和設(shè)備以及語音識別方法和系統(tǒng)
- 聲學(xué)模型優(yōu)化方法、裝置及語音喚醒方法、裝置和終端
- 維語語音識別方法和裝置
- 用于語音識別的聲學(xué)模型訓(xùn)練方法及裝置
- 基于空間特征補(bǔ)償?shù)亩嗤ǖ勒Z音識別聲學(xué)建模方法及裝置
- 語音喚醒的優(yōu)化方法及系統(tǒng)
- 一種訓(xùn)練喚醒模型的方法及裝置
- 一種聲學(xué)模型的訓(xùn)練方法、裝置以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 聲學(xué)模型優(yōu)化方法及裝置,電子設(shè)備
- 記錄方法和設(shè)備,再生方法和設(shè)備
- 記錄方法和設(shè)備,再生方法和設(shè)備
- 加密設(shè)備和方法、解密設(shè)備和方法及密鑰產(chǎn)生設(shè)備和方法
- 信息處理設(shè)備和方法,傳輸設(shè)備和方法,記錄設(shè)備和方法
- 再生設(shè)備和方法、記錄及再生設(shè)備和方法、記錄設(shè)備和方法
- 頻帶擴(kuò)展設(shè)備和方法、編碼設(shè)備和方法、解碼設(shè)備和方法、以及程序
- 編碼設(shè)備和方法、記錄設(shè)備和方法、及解碼設(shè)備和方法
- 記錄設(shè)備和方法、再現(xiàn)設(shè)備和方法、程序和記錄再現(xiàn)設(shè)備
- 接收設(shè)備和方法、發(fā)送設(shè)備和方法、發(fā)送-接收設(shè)備和方法
- 加密設(shè)備和方法、解密設(shè)備和方法及信息處理設(shè)備和方法
- 語音聲調(diào)的識別方法和裝置
- 一種語音識別的后處理方法及裝置和語音識別系統(tǒng)
- 一種語音丟包補(bǔ)償?shù)姆椒跋到y(tǒng)
- 一種面向IP語音的高安全性隱寫方法
- 興趣點(diǎn)識別方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 一種語音識別裝置、方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種語音搜索方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 語音識別結(jié)果糾錯(cuò)方法、裝置、存儲(chǔ)介質(zhì)和電子設(shè)備
- 一種語音識別方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 生成會(huì)議紀(jì)要的方法、裝置、電子裝置及存儲(chǔ)介質(zhì)
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測模型構(gòu)建方法





