[發(fā)明專利]一種英語文本單詞使用錯誤的糾正方法有效
| 申請?zhí)枺?/td> | 202010573320.1 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111737980B | 公開(公告)日: | 2023-05-16 |
| 發(fā)明(設(shè)計)人: | 黃桂敏;孫正霖;李俊 | 申請(專利權(quán))人: | 桂林電子科技大學(xué) |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/284;G06F40/242;G06F40/30 |
| 代理公司: | 桂林市華杰專利商標事務(wù)所有限責(zé)任公司 45112 | 代理人: | 楊雪梅 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 英語 文本 單詞 使用 錯誤 糾正 方法 | ||
1.一種英語文本單詞使用錯誤的糾正方法,其特征是:包括英語文本預(yù)處理模塊、目標英語單詞匹配模塊、英語單詞上下文語義分析模塊、英語單詞使用錯誤糾正模塊組成的糾正模型,其糾正方法包括如下步驟:
(1)英語文本預(yù)處理模塊輸入需要檢查英語單詞使用錯誤的英語文本,對輸入的英語文本進行分詞分句、英語單詞小寫化處理;對分詞分句、單詞小寫化處理后的英語文本進行詞性標注,生成英語文本詞匯表;以英語句子為切分標準,編號英語單詞位置并分條存放英語文本詞匯表,輸出處理后的英語文本詞匯表;
(2)目標英語單詞匹配模塊輸入英語文本預(yù)處理模塊處理后的英語文本詞匯表;輸入英語單詞使用錯誤易混淆集合,將英語文本詞匯表中的英語單詞,與英語單詞使用錯誤易混淆集合的英語單詞進行匹配,記錄匹配的英語單詞及其對應(yīng)位置編號,標記匹配的英語單詞為可能發(fā)生英語單詞使用錯誤的目標英語單詞;提取目標英語單詞在英語文本中對應(yīng)編號位置的左相鄰和右相鄰的上下文英語單詞各一個,分別與目標英語單詞組成兩個二元單詞對;輸入二元統(tǒng)計模型,將上一步的兩個二元單詞對,在二元統(tǒng)計模型中分別進行最長公共子序列匹配,得到滿足二元統(tǒng)計模型的英語單詞及其詞頻;提取二元統(tǒng)計模型匹配得到的英語單詞中與目標英語單詞相似的英語單詞及其詞頻,正則化匹配的最長公共子序列長度和英語單詞及其詞頻;根據(jù)正則化匹配的最長公共子序列長度和英語單詞及其詞頻,計算匹配的英語單詞權(quán)重,以權(quán)重大小排序二元統(tǒng)計模型匹配的英語單詞;根據(jù)權(quán)重排序選取二元統(tǒng)計模型中與目標英語單詞相匹配的英語單詞,標記該英語單詞為二元統(tǒng)計模型的匹配候選英語單詞;結(jié)合單詞使用錯誤易混淆集合和二元統(tǒng)計模型匹配的英語單詞,去掉重復(fù)的英語單詞得到匹配的候選英語單詞,輸出匹配的候選英語單詞;
(3)英語單詞上下文語義分析模塊輸入目標英語單詞匹配模塊處理后的匹配的候選英語單詞,把候選英語單詞與目標英語單詞放入候選英語單詞列表;輸入英語單詞的共現(xiàn)詞向量模型,將上一步得到的候選英語單詞列表中的英語單詞,與英語單詞的共現(xiàn)詞向量模型匹配,得到候選英語單詞列表中英語單詞的詞向量;依據(jù)候選英語單詞列表中英語單詞與目標英語單詞的詞性標注,選取出目標英語單詞在英語文本中相應(yīng)位置的上下文英語單詞;將目標英語單詞的上下文英語單詞與英語單詞的共現(xiàn)詞向量模型匹配,得到上下文英語單詞的詞向量;利用英語單詞的詞向量,計算候選英語單詞列表中每個英語單詞與上下文英語單詞的語義相關(guān)值,輸出英語單詞上下文語義分析結(jié)果;
(4)英語單詞使用錯誤糾正模塊輸入英語單詞上下文語義分析結(jié)果,根據(jù)候選英語單詞列表中的英語單詞上下文語義相關(guān)排序,來判斷上下文相關(guān)最高的英語單詞是否為目標英語單詞;根據(jù)候選英語單詞列表中上下文語義相關(guān)最高的英語單詞是否為目標英語單詞,來判斷英語文本中的目標英語單詞是否發(fā)生英語單詞使用錯誤,如果目標英語單詞的上下文語義相關(guān)值在候選英語單詞列表中不是最高值時,則該目標英語單詞為英語單詞使用錯誤,輸出候選英語單詞列表中上下文語義相關(guān)值最高的英語單詞作為英語單詞使用錯誤的糾正建議。
2.根據(jù)權(quán)利要求1所述的糾正方法,其特征是:所述的英語文本預(yù)處理模塊處理步驟如下:
P201開始;
P202讀取需要檢查單詞使用錯誤的英語文本;
P203對輸入的英語文本進行分詞,并輸出英語文本的分詞結(jié)果;
P204對英語文本的分詞結(jié)果進行單詞小寫化,并輸出英語文本的單詞小寫化結(jié)果;
P205對英語文本的分詞結(jié)果進行詞性標注,并輸出英語文本的詞性標注結(jié)果;
P206統(tǒng)計英語文本的單詞總數(shù),輸出單詞總數(shù)統(tǒng)計結(jié)果;
P207依據(jù)單詞總數(shù)統(tǒng)計結(jié)果,依序編號英語文本中單詞的位置,并輸出英語文本的單詞編號結(jié)果;
P208依據(jù)分詞結(jié)果、單詞小寫化結(jié)果、詞性標注結(jié)果、單詞編號結(jié)果,生成英語文本詞匯表;
P209結(jié)束。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于桂林電子科技大學(xué),未經(jīng)桂林電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010573320.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





