[發(fā)明專利]用于端到端語音識別模型的訓練方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201811523980.8 | 申請日: | 2018-12-13 |
| 公開(公告)號: | CN109346064B | 公開(公告)日: | 2021-07-27 |
| 發(fā)明(設計)人: | 俞凱;錢彥旻;陳哲懷;李豪;劉奇 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/02 |
| 代理公司: | 北京商專永信知識產(chǎn)權代理事務所(普通合伙) 11400 | 代理人: | 方挺;黃謙 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 端到端 語音 識別 模型 訓練 方法 系統(tǒng) | ||
本發(fā)明實施例提供一種用于端到端語音識別模型的訓練方法。該方法包括:將聲學特征序列到單詞序列模型(A2W)解耦,確定聲學特征序列到音素序列模型(A2P)以及音素序列到單詞序列模型(P2W);獲取詞匯列表外的OOV詞語和OOV文本語句,將OOV文本語句反向譯為OOV音素序列;將因素同步解碼訓練后OOV音素序列輸入至P2W,輸出OOV單詞序列,對OOV單詞序列數(shù)據(jù)增強,確定OOV詞語訓練集;根據(jù)OOV詞語訓練集進行訓練從而得到擴展詞匯列表的端到端語音識別模型。本發(fā)明實施例還提供一種用于端到端語音識別模型的訓練系統(tǒng)。本發(fā)明實施例通過模塊化端到端語音識別模型,對音素序列到單詞序列模型(P2W)進行詞表拓展,同時使訓練數(shù)據(jù)集與外部OOV詞匯相匹配,提高了模型的效果。
技術領域
本發(fā)明涉及人工智能領域,尤其涉及一種用于端到端語音識別模型的訓練方法及系統(tǒng)。
背景技術
ASR(Automatic Speech Recognition,自動語音識別)指將聲學序列映射到對應的單詞序列。在序列建模中,有大量標記的上下文數(shù)據(jù)和歷史數(shù)據(jù)具有更強的建模能力,E2E(End-to-end,端到端)ASR系統(tǒng)可以使用統(tǒng)一模型直接將聲學序列映射到單詞序列(A2W),從而簡化了語音識別的過程。
而在A2W模型的應用中,需要面臨OOV(out-of-vocabulary,外部詞匯)的問題。由于模型中訓練的詞匯列表的詞匯量是固定的,沒有針對于OOV詞匯訓練的A2W模型無法預測這類OOV詞匯。
以A2W建模的E2E ASR(End-to-End Automatic Speech Recognition,端到端自動語音識別)模型,由于語音識別是一個統(tǒng)一的模型,會使用語音-文本這種成對的訓練數(shù)據(jù)來進行詞匯列表內(nèi)詞匯量的擴展。
在實現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)相關技術中至少存在如下問題:
由于在訓練中,輸入語音-文本這種成對的數(shù)據(jù)不能保證在時間上是同步的,訓練并不理想,同時,針對于OOV詞匯的特性,即使直接對OOV詞匯進行訓練,這些OOV詞匯也很少出現(xiàn)在訓練的數(shù)據(jù)集中,使得訓練數(shù)據(jù)集中的訓練數(shù)據(jù)對OOV詞匯的訓練不匹配,就算將OOV詞匯訓練至詞匯列表中,在實際使用的效果也不佳。
發(fā)明內(nèi)容
為了至少解決現(xiàn)有技術中需要語音-文本這種成對的訓練數(shù)據(jù)進行訓練,同時訓練數(shù)據(jù)集中的訓練數(shù)據(jù)與要添加的外部詞匯不匹配,使得訓練后的模型效果不佳的問題。
第一方面,本發(fā)明實施例提供一種用于端到端語音識別模型的訓練方法,包括:
將所述端到端語音識別模型中預設聲學特征序列到單詞序列模型(A2W)解耦,確定聲學特征序列到音素序列模型(A2P)以及音素序列到單詞序列模型(P2W);
獲取所述端到端語音識別模型詞匯列表外的OOV詞語,根據(jù)所述OOV詞語獲取相關的OOV文本語句,將所述OOV文本語句反向譯為OOV音素序列;
將通過因素同步解碼訓練后的所述OOV音素序列輸入至所述P2W,輸出OOV單詞序列,對所述OOV單詞序列進行數(shù)據(jù)增強,確定OOV詞語訓練集;
根據(jù)所述OOV詞語訓練集對所述端到端語音識別模型訓練,得到擴展詞匯列表的端到端語音識別模型。
第二方面,本發(fā)明實施例提供一種用于端到端語音識別模型的訓練系統(tǒng),包括:
模型解耦程序模塊,用于將所述端到端語音識別模型中預設聲學特征序列到單詞序列模型(A2W)解耦,確定聲學特征序列到音素序列模型(A2P)以及音素序列到單詞序列模型(P2W);
音素序列確定程序模塊,獲取所述端到端語音識別模型詞匯列表外的OOV詞語,根據(jù)所述OOV詞語獲取相關的OOV文本語句,將所述OOV文本語句反向譯為OOV音素序列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經(jīng)思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811523980.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





