[發明專利]一種增加拼寫糾錯功能的語法糾錯方法在審
| 申請號: | 202010164287.7 | 申請日: | 2020-03-11 |
| 公開(公告)號: | CN111460794A | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 孫科;郭偉 | 申請(專利權)人: | 云知聲智能科技股份有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06N20/00 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 張楠楠 |
| 地址: | 100000 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 增加 拼寫 糾錯 功能 語法 方法 | ||
1.一種增加拼寫糾錯功能的語法糾錯方法,其特征在于,包括如下步驟:
步驟一,獲取待糾錯的文本;
步驟二,對所述待糾錯的文本中的單詞進行檢測和糾正拼寫錯誤,得到候選文本集合,根據預設語言模型計算候選文本集合中每個文本的出現概率,選取前預設數目個概率的文本并構造候選文本子集合;
步驟三,對所述候選文本子集合中的每個文本進行語法糾錯,得到候選結果集合,并將候選結果集合中具有最大后驗概率的文本作為最終語法糾錯的文本,進行輸出。
2.根據權利要求1所述的增加拼寫糾錯功能的語法糾錯方法,其特征在于,所述預設語言模型為預先訓練的n-gram語言模型。
3.根據權利要求1所述的增加拼寫糾錯功能的語法糾錯方法,其特征在于,步驟三中還包括預設機器學習模型,根據所述預設機器學習模型對所述候選文本子集合進行語法糾錯,以得到所述候選結果集合。
4.根據權利要求3所述的增加拼寫糾錯功能的語法糾錯方法,其特征在于,所述預設機器學習模型為Transformer語法糾錯模型。
5.一種增加拼寫糾錯功能的語法糾錯裝置,其特征在于,還包括:
獲取模塊,用于獲取待糾錯的文本;
檢測糾正模塊,用于對所述待糾錯的文本中的單詞進行檢測和糾正拼寫錯誤,并得到候選文本集合,根據預設語言模型計算候選文本集合中每個文本的出現概率,選取前三位概率的文本并構造候選文本子集合;
語法糾正模塊,用于對所述候選文本子集合進行語法糾錯,得到候選結果集合,并將候選結果集合中具有最大后驗概率的文本作為最終語法糾錯的文本。
6.根據權利要求5所述的增加拼寫糾錯功能的語法糾錯裝置,其特征在于,所述檢測糾正模塊包括檢測模塊和拼寫糾正模塊,所述檢測模塊用于對所述待糾錯的文本中的單詞進行檢測,所述拼寫糾正模塊用于對所述待糾錯的文本中的單詞進行糾正拼寫錯誤。
7.根據權利要求6所述的增加拼寫糾錯功能的語法糾錯裝置,其特征在于,所述檢測糾正模塊還包括預設語言模塊,所述預設語言模塊用于計算候選文本集合中每個文本的出現概率,選取前三位概率的文本并構造候選文本子集合。
8.根據權利要求5所述的增加拼寫糾錯功能的語法糾錯裝置,其特征在于,所述語法糾正模塊內還包括概率模塊,所述概率模塊用于獲取所述候選結果集合中的每個文本的后驗概率。
9.根據權利要求8所述的增加拼寫糾錯功能的語法糾錯裝置,其特征在于,所述語法糾正模塊內還包括調整模塊,所述調整模塊用于調整每個文本的后驗概率,以提高每個文本的后驗概率的準確性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云知聲智能科技股份有限公司,未經云知聲智能科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010164287.7/1.html,轉載請聲明來源鉆瓜專利網。





