[發(fā)明專利]用于端到端語音識別模型的訓(xùn)練方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201811523980.8 | 申請日: | 2018-12-13 |
| 公開(公告)號: | CN109346064B | 公開(公告)日: | 2021-07-27 |
| 發(fā)明(設(shè)計)人: | 俞凱;錢彥旻;陳哲懷;李豪;劉奇 | 申請(專利權(quán))人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/02 |
| 代理公司: | 北京商專永信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11400 | 代理人: | 方挺;黃謙 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 端到端 語音 識別 模型 訓(xùn)練 方法 系統(tǒng) | ||
1.一種用于端到端語音識別模型的訓(xùn)練方法,包括:
將所述端到端語音識別模型中預(yù)設(shè)聲學(xué)特征序列到單詞序列模型A2W解耦,確定聲學(xué)特征序列到音素序列模型A2P以及音素序列到單詞序列模型P2W;
獲取所述端到端語音識別模型詞匯列表外的OOV詞語,根據(jù)所述OOV詞語獲取相關(guān)的OOV文本語句,將所述OOV文本語句反向譯為OOV音素序列;
將通過音素同步解碼訓(xùn)練后的所述OOV音素序列輸入至所述P2W,輸出OOV單詞序列,對所述OOV單詞序列進行數(shù)據(jù)增強,確定OOV詞語訓(xùn)練集;
根據(jù)所述OOV詞語訓(xùn)練集對所述端到端語音識別模型訓(xùn)練,得到擴展詞匯列表的端到端語音識別模型。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述根據(jù)所述OOV詞語訓(xùn)練集對所述端到端語音識別模型訓(xùn)練包括:
根據(jù)所述OOV詞語訓(xùn)練集對所述端到端語音識別模型訓(xùn)練;和/或
根據(jù)所述OOV詞語訓(xùn)練集以及預(yù)設(shè)文本語料訓(xùn)練集對所述端到端語音識別模型進行交替訓(xùn)練;和/或
根據(jù)所述OOV詞語訓(xùn)練集、預(yù)設(shè)文本語料訓(xùn)練集以及所述音素序列到單詞序列模型的結(jié)構(gòu),對所述端到端語音識別模型進行多模態(tài)訓(xùn)練。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述對所述OOV單詞序列進行數(shù)據(jù)增強包括:
將所述OOV單詞序列剪切為OOV單詞序列片段;
通過n-gram模型對所述OOV單詞序列片段處理,構(gòu)造所述OOV單詞序列的額外OOV文本數(shù)據(jù),用于OOV詞語訓(xùn)練集。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述將所述OOV文本語句反向譯為OOV音素序列包括:
通過發(fā)音詞典或字形換能器將所述OOV文本語句反向譯為OOV音素序列。
5.一種用于端到端語音識別模型的訓(xùn)練系統(tǒng),包括:
模型解耦程序模塊,用于將所述端到端語音識別模型中預(yù)設(shè)聲學(xué)特征序列到單詞序列模型A2W解耦,確定聲學(xué)特征序列到音素序列模型A2P以及音素序列到單詞序列模型P2W;
音素序列確定程序模塊,獲取所述端到端語音識別模型詞匯列表外的OOV詞語,根據(jù)所述OOV詞語獲取相關(guān)的OOV文本語句,將所述OOV文本語句反向譯為OOV音素序列;
詞語訓(xùn)練集確定程序模塊,用于將通過音素同步解碼訓(xùn)練后的所述OOV音素序列輸入至所述P2W,輸出OOV單詞序列,對所述OOV單詞序列進行數(shù)據(jù)增強,確定OOV詞語訓(xùn)練集;
模型訓(xùn)練程序模塊,用于根據(jù)所述OOV詞語訓(xùn)練集對所述端到端語音識別模型訓(xùn)練,得到擴展詞匯列表的端到端語音識別模型。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其中,所述模型訓(xùn)練程序模塊用于:
根據(jù)所述OOV詞語訓(xùn)練集對所述端到端語音識別模型訓(xùn)練;和/或
根據(jù)所述OOV詞語訓(xùn)練集以及預(yù)設(shè)文本語料訓(xùn)練集對所述端到端語音識別模型進行交替訓(xùn)練;和/或
根據(jù)所述OOV詞語訓(xùn)練集、預(yù)設(shè)文本語料訓(xùn)練集以及所述音素序列到單詞序列模型的結(jié)構(gòu),對所述端到端語音識別模型進行多模態(tài)訓(xùn)練。
7.根據(jù)權(quán)利要求5所述的系統(tǒng),其中,所述詞語訓(xùn)練集確定程序模塊用于:
將所述OOV單詞序列剪切為OOV單詞序列片段;
通過n-gram模型對所述OOV單詞序列片段處理,構(gòu)造所述OOV單詞序列的額外OOV文本數(shù)據(jù),用于OOV詞語訓(xùn)練集。
8.根據(jù)權(quán)利要求5所述的系統(tǒng),其中,所述音素序列確定程序模塊用于:
通過發(fā)音詞典或字形換能器將所述OOV文本語句反向譯為OOV音素序列。
9.一種電子設(shè)備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行權(quán)利要求1-4中任一項所述方法的步驟。
10.一種存儲介質(zhì),其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-4中任一項所述方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于思必馳科技股份有限公司,未經(jīng)思必馳科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811523980.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





