[發明專利]語言模型構建方法、裝置及存儲介質在審
| 申請號: | 202010087941.9 | 申請日: | 2020-02-12 |
| 公開(公告)號: | CN111415655A | 公開(公告)日: | 2020-07-14 |
| 發明(設計)人: | 祖拓;馮大航;陳孝良;常樂 | 申請(專利權)人: | 北京聲智科技有限公司 |
| 主分類號: | G10L15/18 | 分類號: | G10L15/18;G10L15/183;G10L15/26;G06F40/211 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 邢少真 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 模型 構建 方法 裝置 存儲 介質 | ||
本公開揭示了一種語言模型構建方法、裝置及存儲介質,所述方法包括:通過獲取的至少一個句式框架,確定框架模型,其中句式框架中包含至少一個變量元素和至少一個恒量元素,框架模型用來指示句式框架對應的語言模型,然后,根據獲取的變量元素對應的數據,確定變量模型,其中變量模型用來指示變量元素對應的語言模型,最后將框架模型和變量模型進行結合,確定第一語言模型。通過上述方案,服務器可以通過構建框架模型和數據模型,組合得到第一語言模型,從而在保證了語料的全面性的前提下,提高了構建語言模型的效率。
技術領域
本公開涉及人工智能技術領域,特別是涉及一種語言模型構建方法、裝置及存儲介質。
背景技術
如今,隨著人工智能技術日益發展,為了使人工智能中的語音識別技術可以應用于更多的場景,需要存儲大量的語料。
在相關技術中,為了適應特定領域的語音識別,需要構建的語言模型針對性的偏向于特定領域,在實際應用中,用戶在特定領域中表達一個含義的語句可以有多種句式,一個句式可以表示不同的指令,比如,句式可以是“播放某歌手演唱的某歌曲”,其中歌手與歌曲的數量巨大,大量的句式語料需要使用腳本構造句式,從而生成大量的語料。
然而,相關技術中的方案,使用腳本生成固定一個句式的所有情況的語料,這種方案會導致生成的語料過多,生成語料的時間過長,從而導致構建語言模型的效率不高。
發明內容
本公開提供一種語言模型構建方法、裝置及存儲介質。所述技術方案如下:
根據本公開實施例的第一方面,提供了一種語言模型構建方法,其特征在于,所述方法包括:
根據獲取的至少一個句式框架,確定框架模型,所述句式框架中包含至少一個變量元素和至少一個恒量元素,所述框架模型用來指示所述句式框架對應的語言模型;
根據獲取的所述變量元素對應的數據,確定變量模型,所述變量模型用來指示所述變量元素對應的語言模型;
將所述框架模型和所述變量模型進行結合,確定第一語言模型。
可選的,所述根據獲取的至少一個句式框架,確定框架模型,包括:
獲取至少一個所述句式框架,將所述句式框架組合生成語料文本;
根據N-Gram語言模型算法,將所述語料文本對應的所述語言模型確定為所述框架模型;
將所述框架模型轉換成框架模型的有限狀態傳感器FST圖。
可選的,所述獲取至少一個句式框架,生成語料文本,包括:
通過自定義編譯輸入的句式,獲取至少一個所述句式框架;
和\或,
通過接收語音識別的句式,獲取至少一個所述句式框架。
可選的,所述根據獲取的所述變量元素對應的數據,確定變量模型,所述變量模型用來指示所述變量元素對應的語言模型,包括:
獲取所述句式框架中的至少一個所述變量元素中的數據,生成至少一個數據文本;
根據N-Gram語言模型算法,將所述數據文本對應的所述語言模型確定為所述變量模型;
將所述變量模型轉換成變量模型的有限狀態傳感器FST圖。
可選的,所述將所述框架模型和所述變量模型進行結合,確定第一語言模型,包括:
將所述變量模型的FST圖添加在所述框架模型的FST圖中的變量元素的位置,確定所述第一語言模型的有限狀態傳感器FST圖。
根據本公開實施例的第二方面,提供了一種語言模型構建裝置,其特征在于,所述裝置包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京聲智科技有限公司,未經北京聲智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010087941.9/2.html,轉載請聲明來源鉆瓜專利網。





