[發明專利]一種增加拼寫糾錯功能的語法糾錯方法在審
| 申請號: | 202010164287.7 | 申請日: | 2020-03-11 |
| 公開(公告)號: | CN111460794A | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 孫科;郭偉 | 申請(專利權)人: | 云知聲智能科技股份有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06N20/00 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 張楠楠 |
| 地址: | 100000 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 增加 拼寫 糾錯 功能 語法 方法 | ||
本發明公開了一種增加拼寫糾錯功能的語法糾錯方法,包括:獲取待糾錯的文本;對所述待糾錯的文本中的單詞進行檢測和糾正拼寫錯誤,得到候選文本集合,根據預設語言模型計算候選文本集合中每個文本的出現概率,選取前預設數目個概率的文本并構造候選文本子集合;對所述候選文本子集合進行語法糾錯,得到候選結果集合,并將候選結果集合中具有最大后驗概率的文本作為最終語法糾錯的文本。本發明公開了一種增加拼寫糾錯功能的語法糾錯方法可有效檢查和糾正待糾錯文本中的拼寫錯誤,降低因拼寫錯誤而使語法糾錯發生誤判的可能性,提高語法糾錯的性能;還可在輸出結果中可同時體現待糾錯文本中的拼寫錯誤和語法錯誤,提供更好的用戶體驗。
技術領域
本發明涉及數據挖掘與自然語言處理術領域,更具體地說,本發明涉及一種增加拼寫糾錯功能的語法糾錯方法。
背景技術
訓練語法糾錯模型前先對平行訓練語料進行拼寫糾錯,提高訓練語料的質量,進而提高語法糾錯模型的性能。如現有技術中沒有對待糾錯文本進行拼寫檢查和糾錯,當待糾錯文本中出現拼寫錯誤時會有降低語法糾錯性能的風險,比如“This place has awarmm and dry summers”,語法糾錯模塊可能會把“warmm”誤當做名詞,而不去批改“warmm”前面的冠詞“a”,得到錯誤的結果“This place has a warmm and dry summers”,對拼寫錯誤和語法錯誤均未做出糾錯。也就是說,存在如下問題:1)沒有將待糾錯的文本進行拼寫檢查和糾錯,如果待糾錯文本有拼寫錯誤時會有降低語法糾錯性能的風險;2)糾錯結果中只能體現語法錯誤,無法同時體現拼寫錯誤。
因此,有必要提出一種增加拼寫糾錯功能的語法糾錯方法,以至少部分地解決現有技術中存在的問題。
發明內容
在發明內容部分中引入了一系列簡化形式的概念,這將在具體實施方式部分中進一步詳細說明。本發明的發明內容部分并不意味著要試圖限定出所要求保護的技術方案的關鍵特征和必要技術特征,更不意味著試圖確定所要求保護的技術方案的保護范圍。
為至少部分地解決上述問題,本發明提供了一種增加拼寫糾錯功能的語法糾錯方法,包括如下步驟:
步驟一,獲取待糾錯的文本;
步驟二,對所述待糾錯的文本中的單詞進行檢測和糾正拼寫錯誤,得到候選文本集合,根據預設語言模型計算候選文本集合中每個文本的出現概率,選取前預設數目個概率的文本并構造候選文本子集合;
步驟三,對所述候選文本子集合中的每個文本進行語法糾錯,得到候選結果集合,并將候選結果集合中具有最大后驗概率的文本作為最終語法糾錯的文本,進行輸出。
優選的是,其中,所述預設語言模型為預先訓練的n-gram語言模型。
優選的是,其中,步驟三中還包括預設機器學習模型,根據所述預設機器學習模型對所述候選文本子集合進行語法糾錯,以得到所述候選結果集合。
優選的是,其中,所述預設機器學習模型為Transformer語法糾錯模型。
一種增加拼寫糾錯功能的語法糾錯裝置,包括:
獲取模塊,用于獲取待糾錯的文本;
檢測糾正模塊,用于對所述待糾錯的文本中的單詞進行檢測和糾正拼寫錯誤,并得到候選文本集合,根據預設語言模型計算候選文本集合中每個文本的出現概率,選取前三位概率的文本并構造候選文本子集合;
語法糾正模塊,用于對所述候選文本子集合進行語法糾錯,得到候選結果集合,并將候選結果集合中具有最大后驗概率的文本作為最終語法糾錯的文本。
優選的是,其中,所述檢測糾正模塊包括檢測模塊和拼寫糾正模塊,所述檢測模塊用于對所述待糾錯的文本中的單詞進行檢測,所述拼寫糾正模塊用于對所述待糾錯的文本中的單詞進行糾正拼寫錯誤。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云知聲智能科技股份有限公司,未經云知聲智能科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010164287.7/2.html,轉載請聲明來源鉆瓜專利網。





