[發(fā)明專利]多語種語音識(shí)別的聲學(xué)模型建立方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201310332146.1 | 申請(qǐng)日: | 2013-08-01 |
| 公開(公告)號(hào): | CN103400577A | 公開(公告)日: | 2013-11-20 |
| 發(fā)明(設(shè)計(jì))人: | 蘇丹;尹釗 | 申請(qǐng)(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號(hào): | G10L15/06 | 分類號(hào): | G10L15/06;G10L15/18 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語種 語音 識(shí)別 聲學(xué) 模型 建立 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種多語種語音識(shí)別的聲學(xué)模型建立方法和裝置。
背景技術(shù)
現(xiàn)有的多語種語音識(shí)別的聲學(xué)模型建立算法大致可以分為兩種,即混合高斯模型(gaussian?mixture?model,GMM)算法和深度神經(jīng)網(wǎng)絡(luò)(deep?neural?network,DNN)算法。如果使用混合高斯模型算法建立聲學(xué)模型,需要建立多個(gè)高斯概率密度函數(shù),得到高斯概率密度函數(shù)集,每個(gè)語音特征的聲學(xué)得分通過該高斯概率密度函數(shù)集的多個(gè)高斯概率密度函數(shù)的加權(quán)求和得到,在根據(jù)每個(gè)語音特征的聲學(xué)得分對(duì)語音特征進(jìn)行判決。如果使用深度神經(jīng)網(wǎng)絡(luò)算法建立聲學(xué)模型,需要利用包括語音特征的樣本數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),根據(jù)訓(xùn)練得到的深度神經(jīng)網(wǎng)絡(luò)的輸出概率對(duì)語音特征進(jìn)行判決。
而在多語種的語音識(shí)別系統(tǒng)中,語音識(shí)別系統(tǒng)需要處理多個(gè)屬于不同語種的語音數(shù)據(jù),而屬于不同語種的語音數(shù)據(jù)的語音特征有較大差異。但現(xiàn)有技術(shù)中,無論混合高斯模型算法還是深度神經(jīng)網(wǎng)絡(luò)算法都沒有對(duì)不同語種的語音數(shù)據(jù)進(jìn)行有效的區(qū)分,因此最終得到的識(shí)別準(zhǔn)確率都不高。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提出一種多語種語音識(shí)別的聲學(xué)模型建立方法和裝置,能夠?qū)Σ煌Z種的語音特征進(jìn)行區(qū)分,提高多語種語音識(shí)別的精度。
在第一方面,本發(fā)明實(shí)施例提供了一種多語種語音識(shí)別的聲學(xué)模型建立方法,所述方法包括:
利用全部語音特征數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),其中,所述深度神經(jīng)網(wǎng)絡(luò)包括一個(gè)輸入層、多個(gè)隱層以及對(duì)應(yīng)于不同語種的多個(gè)輸出層,所述輸入層根據(jù)輸入的語音特征數(shù)據(jù)計(jì)算輸出至最底層的隱層的輸出值,所述隱層根據(jù)本層的加權(quán)值對(duì)來自下一層的輸入值進(jìn)行加權(quán)求和,得到輸出至下一層的輸出值,所述輸出層根據(jù)本層的加權(quán)值對(duì)來自最上層的隱層的輸入值進(jìn)行加權(quán)求和,并根據(jù)所述加權(quán)求和的結(jié)果計(jì)算輸出概率;
利用不同語種的語音特征數(shù)據(jù)分別訓(xùn)練所述對(duì)應(yīng)于不同語種的多個(gè)輸出層;以及
將所述對(duì)應(yīng)于不同語種的多個(gè)輸出層合并成為總輸出層。
在第二方面,本發(fā)明實(shí)施例提供了一種多語種語音識(shí)別的聲學(xué)模型建立裝置,所述裝置包括:
公共特征訓(xùn)練模塊,用于利用所有語種的語音特征數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),其中,所述深度神經(jīng)網(wǎng)絡(luò)包括一個(gè)輸入層、多個(gè)隱層以及對(duì)應(yīng)于不同語種的多個(gè)輸出層,所述輸入層根據(jù)輸入的語音特征數(shù)據(jù)計(jì)算輸出至最底層的隱層的輸出值,所述隱層根據(jù)本層的加權(quán)值對(duì)來自下一層的輸入值進(jìn)行加權(quán)求和,得到輸出至下一層的輸出值,所述輸出層根據(jù)本層的加權(quán)值對(duì)來自最上層的隱層的輸入值進(jìn)行加權(quán)求和,并根據(jù)所述加權(quán)求和的結(jié)果計(jì)算輸出概率;
語種特征訓(xùn)練模塊,用于利用不同語種的語音特征數(shù)據(jù)分別訓(xùn)練所述對(duì)應(yīng)于不同語種的多個(gè)輸出層;以及
輸出層合并模塊,用于將所述對(duì)應(yīng)于不同語種的多個(gè)輸出層合并成為總輸出層。
本發(fā)明通過針對(duì)不同語種的公共特征的深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,針對(duì)不同語種的語種特征的深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,以及輸出層的合并,使得深度神經(jīng)網(wǎng)絡(luò)模型不僅能夠?qū)Σ煌Z種的公共特征進(jìn)行識(shí)別,還能夠?qū)Σ煌Z種的語種特征進(jìn)行識(shí)別,提高了對(duì)多語種進(jìn)行語音識(shí)別的精度。
附圖說明
圖1是本發(fā)明第一實(shí)施例提供的多語種語音識(shí)別的聲學(xué)模型建立方法的流程圖。
圖2是本發(fā)明第一實(shí)施例提供的深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖。
圖3是本發(fā)明第一實(shí)施例提供的輸入單元的原理示意圖。
圖4是本發(fā)明第一實(shí)施例提供的隱層單元的原理示意圖。
圖5是本發(fā)明第一實(shí)施例提供的輸出單元的原理示意圖。
圖6是本發(fā)明第一實(shí)施例提供的公共特征訓(xùn)練的原理示意圖。
圖7是本發(fā)明第一實(shí)施例提供的語種特征訓(xùn)練的原理示意圖。
圖8是本發(fā)明第一實(shí)施例提供的輸出層合并的原理示意圖。
圖9是本發(fā)明第二實(shí)施例提供的多語種語音識(shí)別的聲學(xué)模型建立方法的流程圖。
圖10是本發(fā)明第三實(shí)施例提供的多語種語音識(shí)別的聲學(xué)模型建立裝置的結(jié)構(gòu)圖。
具體實(shí)施方式
下面結(jié)合附圖并通過具體實(shí)施例來進(jìn)一步說明本發(fā)明的技術(shù)方案。
圖1至圖8示出了本發(fā)明的第一實(shí)施例。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310332146.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 支持多語種接口的電子裝置及方法
- 一種模塊化語種解析裝置及其實(shí)現(xiàn)方法
- 一種終端語種的配置方法及裝置
- 一種多語種文字歸碼轉(zhuǎn)傳裝置及方法
- 一種語種識(shí)別方法、裝置、翻譯機(jī)、介質(zhì)和設(shè)備
- 自動(dòng)識(shí)別語種的翻譯方法、裝置及設(shè)備
- 一種語種識(shí)別模型訓(xùn)練、語種識(shí)別的方法和相關(guān)裝置
- 語種識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 語種識(shí)別方法
- 人機(jī)對(duì)話方法、裝置、計(jì)算機(jī)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 用于語音識(shí)別的聲學(xué)模型訓(xùn)練方法及裝置
- 具有集成聲學(xué)發(fā)生器的聲學(xué)發(fā)射傳感器
- 聲學(xué)發(fā)射傳感器裝置
- 一種基于空間折疊聲學(xué)超材料的單傳感器聲學(xué)相機(jī)
- 聲學(xué)環(huán)境中的聲學(xué)信號(hào)的基于上下文的消除和放大
- 聲學(xué)結(jié)構(gòu)和聲學(xué)系統(tǒng)
- 具有外放和私密操作模式的可穿戴個(gè)人聲學(xué)設(shè)備
- 聲換能器系統(tǒng)
- 一種聲學(xué)模型的訓(xùn)練方法、裝置以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于聲學(xué)暗室的聲學(xué)相位中心校準(zhǔn)方法及系統(tǒng)





