[發(fā)明專利]基于多元特征的英語作文語法錯誤自動糾正方法有效
| 申請?zhí)枺?/td> | 201310311955.4 | 申請日: | 2013-07-24 |
| 公開(公告)號: | CN103365838A | 公開(公告)日: | 2013-10-23 |
| 發(fā)明(設計)人: | 黃桂敏;周婭;王曉娟 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 羅玉榮 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多元 特征 英語 作文 語法錯誤 自動 糾正 方法 | ||
技術領域
本發(fā)明涉及自然語言處理技術與統(tǒng)計學,具體是基于多元特征的英語作文語法錯誤自動糾正方法。
背景技術
目前,英語作文語法錯誤的自動糾正方法主要分為兩類,即:基于規(guī)則的英語作文語法錯誤自動糾正方法和基于統(tǒng)計的英語作文語法錯誤自動糾正方法。其中,基于規(guī)則的英語作文語法錯誤自動糾正方法是:通過分析英語句子的語法特征,總結歸納出固定的英語語法規(guī)則來構建英語句子語法規(guī)則糾錯模型,當對英語作文的語法錯誤進行糾正時,構建英語句子語法規(guī)則糾錯模型對英語作文中句子的語法進行檢查,判斷它們是否符合模型中存在的語法規(guī)則,來實現(xiàn)對英語作文中語法錯誤的自動糾正。基于統(tǒng)計的英語作文語法錯誤自動糾正方法是:通過訓練文本集來構建英語句子的語法糾錯統(tǒng)計模型,使用英語句子的語法糾錯統(tǒng)計模型對英語作文中語法錯誤進行糾正處理。然而,這兩種英語作文語法錯誤的自動糾正方法都存在如下優(yōu)點與缺點。
1、基于規(guī)則的英語作文語法錯誤自動糾正方法
優(yōu)點:糾錯準確率高、執(zhí)行效率高、使用簡單,并且對于一些語法固定搭配、某些單詞特殊用法、固定的語法規(guī)則、語法時態(tài)數一致性具有較好的糾錯效果。
缺點:由于英語使用的靈活性和多變性,構建一種英語語法規(guī)則模型要花費較長時間,而且總結歸納的英語語法規(guī)則只能覆蓋局限語法規(guī)則,英語語法錯誤糾正類型有限。
2、基于統(tǒng)計的英語作文語法錯誤自動糾正方法
優(yōu)點:對于難以用語法規(guī)則描述的英語語法錯誤,這種方法具有較好的糾正效果。
缺點:英語語法糾錯正確率受到訓練文本集規(guī)模、語法特征提取廣度和精度、訓練構建的語法統(tǒng)計糾錯模型好壞的影響,所以這種方法的糾錯正確率有待改進。
總之,英語作文語法錯誤的自動糾正技術具有非常廣闊的應用前景,例如:作者利用它自動糾正其英語作文中語法錯誤,以提高自身的英語寫作水平;英語機器翻譯系統(tǒng)使用它糾正輸出的翻譯結果,以提高英語機器翻譯系統(tǒng)的譯文準確度。
發(fā)明內容
本發(fā)明的目的是提供基于多元特征的英語作文語法錯誤自動糾正方法。
基于多元特征的英語作文語法錯誤自動糾正方法,其中包括語法糾錯預處理模塊、語法糾錯模型訓練模塊和語法錯誤檢查糾正模塊;
語法糾錯預處理模塊處理包括:輸入訓練文本集,對訓練文本集進行單詞詞性標注、句子句法解析和單詞詞頻統(tǒng)計,輸出單詞詞性標注庫、句子句法樹結構庫、單詞詞頻統(tǒng)計庫;
語法糾錯模型訓練模塊處理包括:輸入單詞詞性標注庫、句子句法樹結構庫、單詞詞頻統(tǒng)計庫、單詞詞性語法混淆集,根據單詞詞性語法混淆集提取單詞詞性上下文語法特征、單詞詞性結構依賴語法特征,根據單詞多元語法特征提取單詞及其詞性的語法特征,利用單詞詞頻統(tǒng)計庫計算單詞語法特征權重,生成語法糾錯統(tǒng)計模型,輸出語法糾錯統(tǒng)計模型;
語法錯誤檢查糾正模塊處理包括:輸入語法糾錯統(tǒng)計模型、語法糾錯規(guī)則模型、單詞詞性語法混淆集,采用語法糾錯統(tǒng)計模型糾正英語作文中冠詞錯誤、介詞錯誤、詞性混淆錯誤、動詞形態(tài)錯誤、助動詞錯誤、主謂不一致錯誤,利用語法糾錯規(guī)則模型糾正英語作文中單復數不一致錯誤、片段錯誤、形容詞比較級最高級錯誤、動詞與補語搭配錯誤、單詞重復使用錯誤,輸出英語作文中語法錯誤的糾正結果。
所述的語法糾錯預處理模塊具體處理流程如下:
S0201開始;
S0202讀入訓練文本集;
S0203使用賓州樹庫標注集標注訓練文本集中句子,輸出單詞詞性標注庫;
S0204使用上下文無關文法單詞詞性句法解析方法訓練文本集中句子,輸出句子句法樹結構庫;
S0205遍歷單詞詞性標注庫;
S0206如果單詞詞性標注庫遍歷結束,則轉S0210操作;否則轉S0207操作;
S0207如果當前單詞在單詞詞頻鏈表中,則轉S0208操作;否則轉S0209操作;
S0208當前單詞及其詞性在單詞詞頻鏈表中詞頻加1,轉S0205操作;
S0209當前單詞及其詞性加入單詞詞頻鏈表,當前單詞及其詞性在單詞詞頻鏈表中詞頻加1,轉S0205操作;
S0210遍歷句子句法樹結構庫;
S0211如果句法樹結構庫遍歷結束,則轉S0215操作;否則轉S0212操作;
S0212如果當前短語在單詞詞頻鏈表中,則轉S0213操作;否則轉S0214操作;
S0213當前短語及其詞性在單詞詞頻鏈表中詞頻加1,轉S0210操作;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310311955.4/2.html,轉載請聲明來源鉆瓜專利網。





