[發明專利]基于多元特征的英語作文語法錯誤自動糾正方法有效
| 申請號: | 201310311955.4 | 申請日: | 2013-07-24 |
| 公開(公告)號: | CN103365838A | 公開(公告)日: | 2013-10-23 |
| 發明(設計)人: | 黃桂敏;周婭;王曉娟 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 羅玉榮 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多元 特征 英語 作文 語法錯誤 自動 糾正 方法 | ||
1.基于多元特征的英語作文語法錯誤自動糾正方法,其特征是:其中包括語法糾錯預處理模塊、語法糾錯模型訓練模塊和語法錯誤檢查糾正模塊;
語法糾錯預處理模塊處理包括:輸入訓練文本集,對訓練文本集進行單詞詞性標注、句子句法解析和單詞詞頻統計,輸出單詞詞性標注庫、句子句法樹結構庫、單詞詞頻統計庫;
語法糾錯模型訓練模塊處理包括:輸入單詞詞性標注庫、句子句法樹結構庫、單詞詞頻統計庫、單詞多元語法特征集、單詞詞性語法混淆集,根據單詞詞性語法混淆集提取單詞及其詞性上下文語法特征、單詞及其詞性結構依賴語法特征,根據單詞多元語法特征提取單詞及其詞性的語法特征,利用單詞詞頻統計庫計算單詞語法特征權重,生成語法糾錯統計模型,最后輸出語法糾錯統計模型;
語法錯誤檢查糾正模塊處理包括:輸入語法糾錯統計模型、語法糾錯規則模型、單詞詞性語法混淆集,采用語法糾錯統計模型糾正英語作文中冠詞錯誤、介詞錯誤、詞性混淆錯誤、動詞形態錯誤、助動詞錯誤、主謂不一致錯誤,利用語法糾錯規則模型糾正英語作文中單復數不一致錯誤、片段錯誤、形容詞比較級最高級錯誤、動詞與補語搭配錯誤、單詞重復使用錯誤,最后輸出英語作文中語法錯誤的糾正結果。
2.根據權利要求1所述的方法,其特征是:所述的語法糾錯預處理模塊具體處理流程如下:
S0201開始;
S0202讀入訓練文本集;
S0203使用賓州樹庫標注集標注訓練文本集中句子,輸出單詞詞性標注庫;
S0204使用上下文無關文法單詞詞性句法解析方法訓練文本集中句子,輸出句子句法樹結構庫;
S0205遍歷單詞詞性標注庫;
S0206如果單詞詞性標注庫遍歷結束,則轉S0210操作;否則轉S0207操作;
S0207如果當前單詞在單詞詞頻鏈表中,則轉S0208操作;否則轉S0209操作;
S0208當前單詞及其詞性在單詞詞頻鏈表中詞頻加1,轉S0205操作;
S0209當前單詞及其詞性加入單詞詞頻鏈表,當前單詞及其詞性在單詞詞頻鏈表中詞頻加1,轉S0205操作;
S0210遍歷句子句法樹結構庫;
S0211如果句法樹結構庫遍歷結束,則轉S0215操作;否則轉S0212操作;
S0212如果當前短語在單詞詞頻鏈表中,則轉S0213操作;否則轉S0214操作;
S0213當前短語及其詞性在單詞詞頻鏈表中詞頻加1,轉S0210操作;
S0214當前短語及其詞性加入單詞詞頻鏈表,當前短語及其詞性在單詞詞頻鏈表中詞頻加1,轉S0210操作;
S0215利用單詞詞頻鏈表構建單詞詞頻統計庫,輸出單詞詞頻統計庫;
S0216結束。
3.根據權利要求1所述的方法,其特征是:所述的語法糾錯模型訓練模塊具體處理流程如下:
S0301開始;
S0302讀入單詞詞性標注庫、句子句法樹結構庫和單詞詞性語法混淆集;
S0303將句子分割成單詞詞性單元,生成單詞詞性單元列表;
S0304遍歷單詞詞性單元列表;
S0305如果單詞詞性單元列表遍歷結束,則轉S0310操作;否則轉S0306操作;
S0306如果當前單詞在單詞詞性語法混淆集中,則轉S0307操作;否則轉S0305操作;
S0307從單詞多元語法特征集中,提取當前單詞及其詞性的語法特征;
S0308計算當前單詞語法特征權重;
S0309在語法糾錯鏈表中保存當前單詞及其詞性語法特征、當前單詞語法特征權重,轉S0305操作;
S0310利用語法糾錯鏈表構建語法糾錯統計模型,并輸出語法糾錯統計模型;
S0311結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310311955.4/1.html,轉載請聲明來源鉆瓜專利網。





