[發明專利]一種英語文本單詞使用錯誤的糾正方法有效
| 申請號: | 202010573320.1 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111737980B | 公開(公告)日: | 2023-05-16 |
| 發明(設計)人: | 黃桂敏;孫正霖;李俊 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/284;G06F40/242;G06F40/30 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 楊雪梅 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 英語 文本 單詞 使用 錯誤 糾正 方法 | ||
本發明提供一種英語文本單詞使用錯誤的糾正方法,該方法是一個由順序連接的英語文本預處理模塊、目標英語單詞匹配模塊、英語單詞上下文語義分析模塊、英語單詞使用錯誤糾正模塊組成的糾正模型。一篇英語文本通過該糾正模型和糾正方法處理后,最后能夠得到這篇英語文本的單詞使用錯誤糾正結果。本發明糾正方法解決了英語文本的單詞使用錯誤自動糾正問題,其糾正結果比傳統的英語文本單詞使用錯誤的糾正方法的糾正結果更好。
技術領域
本發明涉及自然語言處理技術,具體是一種針對英語文本單詞使用錯誤的糾正方法,本發明的方法只適用于糾正英語文本的單詞使用錯誤,不適用于中文文本的單詞使用錯誤。
背景技術
英語文本的英語單詞使用錯誤是將英語單詞錯寫成英語字典中的相似單詞,但是錯寫的英語單詞在英語文本中存在使用上的錯誤。由于英語單詞使用錯誤的糾正依賴于錯寫單詞的上下文語義信息,因此英語單詞使用錯誤糾正難度較大。傳統的英語單詞使用錯誤糾正方法主要有基于N元統計模型方法、基于機器學習方法、基于語義信息方法?;贜元統計模型方法依賴N元統計模型,需要從海量的英語文本中統計出高質量的N元語義信息,該方法糾正過程復雜且效率低,難以捕獲更長的語法關系?;跈C器學習方法依賴語法特征訓練集,在采用單詞使用錯誤易混淆集合進行糾錯時耗費精力較多,普適性和擴展性較差。基于語義信息方法以語義詞典為基礎,該方法檢查單詞使用錯誤的效果較差,容易產生糾正的誤判,糾正的精確率不高。本發明的一種英語文本單詞使用錯誤的糾正方法解決了上述糾正方法的問題。
發明內容
本發明的英語文本單詞使用錯誤的糾正方法的總體處理流程圖如圖1所示,其中包括英語英語文本預處理模塊、目標英語單詞匹配模塊、英語單詞上下文語義分析模塊、英語單詞使用錯誤糾正模塊四個部分。
其中的英語英語文本預處理模塊的處理流程是:第一,輸入需要檢查英語單詞使用錯誤的英語文本,對輸入的英語文本進行分詞分句、英語單詞小寫化處理;第二,對分詞分句、單詞小寫化處理后的英語文本進行詞性標注,生成英語文本詞匯表;第三,以英語句子為切分標準,編號英語單詞位置并分條存放英語文本詞匯表,輸出經上述處理后的英語文本詞匯表。
其中的目標英語單詞匹配模塊的處理流程是:第一,輸入英語英語文本預處理模塊處理后的英語文本詞匯表;第二,輸入英語單詞使用錯誤易混淆集合,將英語文本詞匯表中的英語單詞,與英語單詞使用錯誤易混淆集合的英語單詞進行匹配,記錄匹配的英語單詞及其對應位置編號,標記匹配的英語單詞為可能發生英語單詞使用錯誤的目標英語單詞;第三,提取目標英語單詞在英語文本中對應編號位置的左相鄰和右相鄰的上下文英語單詞各一個,分別與目標英語單詞組成兩個二元單詞對;第四,輸入二元統計模型,將上一步的兩個二元單詞對,在二元統計模型中分別進行最長公共子序列匹配,得到滿足二元統計模型的英語單詞及其詞頻;第五,提取二元統計模型匹配得到的英語單詞中與目標英語單詞相似的英語單詞及其詞頻,正則化匹配的最長公共子序列長度和英語單詞及其詞頻;第六,根據正則化匹配的最長公共子序列長度和英語單詞及其詞頻,計算匹配的英語單詞權重,以權重大小排序二元統計模型匹配的英語單詞;第七,根據權重排序選取二元統計模型中與目標英語單詞相匹配的英語單詞,標記該英語單詞為二元統計模型的匹配候選英語單詞;第八,結合單詞使用錯誤易混淆集合和二元統計模型匹配的英語單詞,去掉重復的英語單詞得到匹配的候選英語單詞,輸出匹配的候選英語單詞。
其中的英語單詞上下文語義分析模塊的處理流程是:第一,輸入目標英語單詞匹配模塊處理后的匹配的候選英語單詞,把候選英語單詞與目標英語單詞放入候選英語單詞列表;第二,輸入英語單詞的共現詞向量模型,將上一步得到的候選英語單詞列表中的英語單詞,與英語單詞的共現詞向量模型匹配,得到候選英語單詞列表中英語單詞的詞向量;第三,依據候選英語單詞列表中英語單詞與目標英語單詞的詞性標注,選取出目標英語單詞在英語文本中相應位置的上下文英語單詞;第四,將目標英語單詞的上下文英語單詞與英語單詞的共現詞向量模型匹配,得到上下文英語單詞的詞向量;第五,利用英語單詞的詞向量,計算候選英語單詞列表中每個英語單詞與上下文英語單詞的語義相關值,輸出英語單詞上下文語義分析結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010573320.1/2.html,轉載請聲明來源鉆瓜專利網。





