[發明專利]規則語言模型的生成方法及裝置在審
| 申請號: | 202011605389.4 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112820280A | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 陳孝良;馮大航;焦偉;常樂 | 申請(專利權)人: | 北京聲智科技有限公司 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14;G10L15/06;G10L15/16;G06F40/30;G06K9/62;G06N3/02;G10L15/22;G06F40/211;G06F40/284 |
| 代理公司: | 北京竹辰知識產權代理事務所(普通合伙) 11706 | 代理人: | 聶鵬 |
| 地址: | 100094 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 規則 語言 模型 生成 方法 裝置 | ||
本公開實施例公開了一種規則語言模型的生成方法、裝置、電子設備和計算機可讀存儲介質。其中該規則語言模型的生成方法包括:獲取原始規則語言模型并將所述原始規則語言模型轉換成加權有限狀態轉換器結構的第一圖;獲取統計語言模型并將所述統計語言模型轉換成加權有限狀態轉換器結構的第二圖;將所述第一圖和所述第二圖合并得到規則語言模型的加權有限狀態轉換器結構的第三圖;其中所述第三圖中的邊的權重根據所述第一圖和所述第二圖中的對應邊的權重得到。通過上述方法中第一圖和第二圖的合并得到對應規則語言模型的第三圖,使得規則語言模型中的邊的權重發生變化,解決了現有技術中語音識別識別結果會偏向于規則語言模型技術問題。
技術領域
本公開涉及語音識別領域,尤其涉及一種規則語言模型的生成方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
語音識別的市場越來越大,各種實際要求也各不相同。一般的識別場景下,所用的語言模型是基于統計的語言模型。但是在某些識別場景下,要識別的內容有很強的規律性或符合某種規則。例如,某些場景可能專門針對手機號識別,手機號的組成是有規律可循的,而且均是十一位。這樣,就引入了基于規則的語言模型。而在同一個語音識別項目中,可能還會有閑聊模式,這種無規律可言,但確符合人類說話用語習慣的,就需要用到基于統計的語言模型。所以一套語音識別系統中,為了應對該項目所遇到的多種場景,會使用多個模型分支,這樣就會出現基于統計的模型和基于規則的模型一起使用的情況
基于統計的語言模型中,詞與詞之間會統計出一個分數;基于規則的語言模型,只是表示一種句式規則,所以詞與詞之間是沒有分數的,即分數全部為0。所以在實際解碼中,識別結果會偏向于規則模型。結果就會遇到以下情況,即場景中出現一個句子,其上半部分符合規則模型的分布,但后半部分不符合規則模型的部分,那么識別過程中由于規則語言模型分數低,它在前半句將占據很大的優勢,使得后半句雖然完全不符合規則,也會在規則語言模型里選擇一條路徑進行解碼,導致識別不準確。
發明內容
提供該發明內容部分以便以簡要的形式介紹構思,這些構思將在后面的具體實施方式部分被詳細描述。該發明內容部分并不旨在標識要求保護的技術方案的關鍵特征或必要特征,也不旨在用于限制所要求的保護的技術方案的范圍。
第一方面,本公開實施例提供一種規則語言模型的生成方法,包括:
獲取原始規則語言模型并將所述原始規則語言模型轉換成加權有限狀態轉換器結構的第一圖;
獲取統計語言模型并將所述統計語言模型轉換成加權有限狀態轉換器結構的第二圖;
將所述第一圖和所述第二圖合并得到規則語言模型的加權有限狀態轉換器結構的第三圖;其中所述第三圖中的邊的權重根據所述第一圖和所述第二圖中的對應邊的權重得到。
進一步的,所述原始規則語言模型通過預設的規則生成;所述第一圖中包括多個第一狀態節點以及所述第一狀態節點之間的第一邊,所述第一邊包括輸入字符和輸出字符以及所述第一邊的第一權重;多個所述第一邊所形成的路徑表示所述原始規則語言模型所能識別的字符串。
進一步的,所述統計語言模型通過通用語料生成;所述第二圖中包括多個第二狀態節點以及所述第二狀態節點之間的第二邊,所述第二邊包括輸入字符和輸出字符以及所述第二邊的第二權重;多個所述第二邊所形成的路徑表示所述統計語言模型所能識別的字符串。
進一步的,所述將所述第一圖和所述第二圖合并得到規則語言模型的加權有限狀態轉換器結構的第三圖,包括:
獲取所述第一圖的初始第一狀態節點和所述第二圖的初始第二狀態節點以形成當前狀態節點對;
獲取離開所述當前狀態節點對中的第一狀態節點的所有第一邊;
獲取離開所述當前狀態節點對中的第二狀態節點的所有第二邊;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京聲智科技有限公司,未經北京聲智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011605389.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種報文轉發方法及裝置
- 下一篇:一種氣體快速采樣處理氣室





