[發(fā)明專利]一種發(fā)音詞典的構(gòu)建方法及裝置在審
| 申請?zhí)枺?/td> | 201511016459.1 | 申請日: | 2015-12-29 |
| 公開(公告)號: | CN106935239A | 公開(公告)日: | 2017-07-07 |
| 發(fā)明(設(shè)計)人: | 王志銘;李曉輝;李宏言 | 申請(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號: | G10L13/06 | 分類號: | G10L13/06;G10L13/04;G10L13/08 |
| 代理公司: | 北京國昊天誠知識產(chǎn)權(quán)代理有限公司11315 | 代理人: | 黃熊 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 發(fā)音 詞典 構(gòu)建 方法 裝置 | ||
1.一種發(fā)音詞典的構(gòu)建方法,其特征在于,所述方法包括:
將目標(biāo)詞匯的語音聲學(xué)特征,輸入語音識別解碼器;其中,所述語音識別解碼器中的發(fā)音詞典包括:目標(biāo)詞匯和目標(biāo)詞匯的候選發(fā)音音素序列;
根據(jù)所述語音識別解碼器以所述語音聲學(xué)特征作為輸入而輸出的候選發(fā)音音素序列,確定所述目標(biāo)詞匯對應(yīng)于輸出的候選發(fā)音音素序列的概率分布;
根據(jù)所述概率分布,從所述輸出的候選發(fā)音音素序列中,選擇作為所述目標(biāo)詞匯的正確發(fā)音的發(fā)音音素序列;
根據(jù)所述正確發(fā)音的發(fā)音音素序列,構(gòu)建發(fā)音詞典。
2.如權(quán)利要求1所述的方法,其特征在于,將所述語音聲學(xué)特征,輸入所述語音識別解碼器前,所述方法還包括:
獲得目標(biāo)詞匯的候選發(fā)音音素序列;
將目標(biāo)詞匯和獲得的候選發(fā)音音素序列,加入到所述語音識別解碼器中的發(fā)音詞典中。
3.如權(quán)利要求2所述的方法,其特征在于,獲得目標(biāo)詞匯的候選發(fā)音音素序列,包括:
利用詞轉(zhuǎn)換為音素G2P方法,獲得目標(biāo)詞匯的候選發(fā)音音素序列。
4.如權(quán)利要求1所述的方法,其特征在于,所述語音識別解碼器中嵌入的聲學(xué)模型,是對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到的。
5.如權(quán)利要求1所述的方法,其特征在于,將目標(biāo)詞匯的語音聲學(xué)特征,輸入所述語音識別解碼器中,包括:
采集目標(biāo)詞匯對應(yīng)的音頻樣本;
根據(jù)所述音頻樣本,獲得所述語音聲學(xué)特征;
將獲得的所述語音聲學(xué)特征,輸入所述語音識別解碼器中。
6.如權(quán)利要求1所述的方法,其特征在于,根據(jù)所述概率分布,從所述輸出的候選發(fā)音音素序列中,選擇作為所述目標(biāo)詞匯的正確發(fā)音的發(fā)音音素序 列,包括:
確定所述概率分布中的最大概率值;
從所述輸出的候選發(fā)音音素序列中,選擇所述最大概率值對應(yīng)的候選發(fā)音音素序列,作為所述目標(biāo)詞匯的正確發(fā)音的發(fā)音音素序列。
7.如權(quán)利要求1~6任一權(quán)項(xiàng)所述的方法,其特征在于,根據(jù)所述正確發(fā)音的發(fā)音音素序列,構(gòu)建發(fā)音詞典,包括:
根據(jù)作為所述目標(biāo)詞匯正確發(fā)音的發(fā)音音素序列,從加入了目標(biāo)詞匯和獲得的候選發(fā)音音素序列的發(fā)音詞典中,刪除目標(biāo)詞匯對應(yīng)的、除所述正確發(fā)音的發(fā)音音素序列外的其他候選發(fā)音音素序列。
8.一種發(fā)音詞典的構(gòu)建裝置,其特征在于,所述裝置包括:
解碼單元:用于將目標(biāo)詞匯的語音聲學(xué)特征,輸入語音識別解碼器中;其中,所述語音識別解碼器中的發(fā)音詞典包括:目標(biāo)詞匯和目標(biāo)詞匯的的候選發(fā)音音素序列;
發(fā)音確定單元:用于根據(jù)所述語音識別解碼器以所述語音聲學(xué)特征作為輸入而輸出的候選發(fā)音音素序列,確定所述目標(biāo)詞匯對應(yīng)于輸出的候選發(fā)音音素序列的概率分布;根據(jù)所述概率分布,從所述輸出的候選發(fā)音音素序列中,選擇作為所述目標(biāo)詞匯的正確發(fā)音的發(fā)音音素序列;
詞典構(gòu)建單元:用于根據(jù)所述正確發(fā)音的發(fā)音音素序列,構(gòu)建發(fā)音詞典。
9.如權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括:
音素序列處理單元,用于在于將目標(biāo)詞匯的語音聲學(xué)特征,輸入語音識別解碼器中前,獲得目標(biāo)詞匯的候選發(fā)音音素序列;并將目標(biāo)詞匯和獲得的候選發(fā)音音素序列,加入到所述語音識別解碼器中的發(fā)音詞典中。
10.如權(quán)利要求9所述的裝置,其特征在于,所述音素序列處理單元,具體可以用于:
利用詞轉(zhuǎn)換為音素G2P方法,獲得目標(biāo)詞匯的候選發(fā)音音素序列。
11.如權(quán)利要求8所述的裝置,其特征在于,所述語音識別解碼器中嵌入 的聲學(xué)模型,是對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到的。
12.如權(quán)利要求8所述的裝置,其特征在于:
所述解碼單元,具體用于采集目標(biāo)詞匯對應(yīng)的音頻樣本;根據(jù)所述音頻樣本,獲得所述語音聲學(xué)特征;將獲得的所述語音聲學(xué)特征,輸入所述語音識別解碼器中。
13.如權(quán)利要求8所述的裝置,其特征在于,所述發(fā)音確定單元,具體用于:
確定所述概率分布中的最大概率值;
從所述輸出的候選發(fā)音音素序列中,選擇所述最大概率值對應(yīng)的候選發(fā)音音素序列,作為所述目標(biāo)詞匯的正確發(fā)音的發(fā)音音素序列。
14.如權(quán)利要求8~13任一權(quán)項(xiàng)所述的裝置,其特征在于:
所述詞典構(gòu)建單元,具體用于根據(jù)作為所述目標(biāo)詞匯正確發(fā)音的發(fā)音音素序列,從加入了目標(biāo)詞匯和獲得的候選發(fā)音音素序列的發(fā)音詞典中,刪除目標(biāo)詞匯對應(yīng)的、除所述正確發(fā)音的發(fā)音音素序列外的其他候選發(fā)音音素序列。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201511016459.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測模型構(gòu)建方法





