[發明專利]領域語言模型構建方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202010669031.1 | 申請日: | 2020-07-13 |
| 公開(公告)號: | CN112002310A | 公開(公告)日: | 2020-11-27 |
| 發明(設計)人: | 張旭華;齊欣;孫澤明;朱林林;王寧 | 申請(專利權)人: | 蘇寧云計算有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06 |
| 代理公司: | 北京市萬慧達律師事務所 11111 | 代理人: | 張慧娟 |
| 地址: | 210000 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 領域 語言 模型 構建 方法 裝置 計算機 設備 存儲 介質 | ||
本發明公開了一種領域語言模型構建方法、裝置、計算機設備及存儲介質,屬于語音識別技術領域,方法包括:將通用語言模型轉換為等價的第一WFSA網絡;根據預設數目的領域語料,從第一WFSA網絡中篩選出滿足預設條件的最優路徑,以構造第二WFSA網絡;對第二WFSA網絡進行歸一化,并將歸一化后的第二WFSA網絡轉換為領域語言模型。本發明在領域訓練語料不足的情況下,能夠快速構建滿足特定場景并且具有通用泛化能力的領域語言模型。
技術領域
本發明涉及語音識別技術領域,特別涉及一種領域語言模型構建方法、裝置、計算機設備及存儲介質。
背景技術
語音識別方案大多為基于語言模型的識別方案。在訓練語言模型時,最常采用的模型是N-Gram模型,N-Gram模型是一種統計語言模型,一般來說語料越大則模型效果越好。隨著場景的不斷深入,經常要求做出各種滿足特定場景需求同時具有泛化能力的語言模型,這對語料的選擇提出了更高的要求。
目前,常用的構建滿足特定場景的語言模型的方法一般有兩種,一種是直接通過收集相關領域語料進行訓練,另一種是將訓練后的語言模型按一定權重與通用語言模型進行融合,來增加泛化能力,而上述兩種方法都需要大量的領域訓練語料,但是找到貼合場景的領域語料并不是很容易。
發明內容
為了解決現有技術的問題,本發明實施例提供了一種領域語言模型構建方法、裝置、計算機設備及存儲介質,能夠在領域訓練語料不足的情況下,快速構建滿足特定場景并且具有通用泛化能力的領域語言模型。
第一方面,提供了一種領域語言模型構建方法,所述方法包括:
將通用語言模型轉換為等價的第一WFSA網絡;
根據預設數目的領域語料,從所述第一WFSA網絡中篩選出滿足預設條件的最優路徑,以構造第二WFSA網絡;
對所述第二WFSA網絡進行歸一化,并將歸一化后的所述第二WFSA網絡轉換為領域語言模型。
進一步地,所述根據預設數目的領域語料,從所述第一WFSA網絡中篩選出滿足預設條件的最優路徑,以構造第二WFSA網絡,包括:
針對每一個所述領域語料,在所述第一WFSA網絡中搜索出預設數量的候選最優路徑;以及
在所述預設數量的候選最優路徑中,篩選出所述領域語料對應的最優路徑,其中,所述最優路徑的每個狀態節點的發射弧上的概率均超過預設閾值;
根據各個所述領域語料對應的最優路徑,構造所述第二WFSA網絡。
進一步地,所述針對每一個所述領域語料,在所述第一WFSA網絡中搜索出預設數量的候選最優路徑,包括:
針對每一個所述領域語料,將所述領域語料輸入所述第一WFSA網絡中進行搜索,得到所述領域語料對應的多個候選路徑及各所述候選路徑的路徑概率;
對所述領域語料對應的多個所述候選路徑按照路徑概率從高至低的順序進行排序,將排序在前預設數量位的候選路徑作為所述領域語料的候選最優路徑。
進一步地,所述對所述第二WFSA網絡進行歸一化,包括:
根據所述第二WFSA網絡中的每個狀態節點的發射弧數以及各個發射弧上的概率,對所述第二WFSA網絡中每個狀態節點的所有發射弧上的概率進行歸一化。
進一步地,所述通用語言模型、所述領域語言模型均為N-Gram語言模型。
第二方面,提供了一種領域語言模型構建裝置,所述裝置包括:
第一轉換模塊,用于將通用語言模型轉換為等價的第一WFSA網絡;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇寧云計算有限公司,未經蘇寧云計算有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010669031.1/2.html,轉載請聲明來源鉆瓜專利網。





