[發明專利]基于規則和語料庫的漢語語病自動檢測方法及設備有效
| 申請號: | 201811268613.8 | 申請日: | 2018-10-29 |
| 公開(公告)號: | CN109460552B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 朱麗莉;譚代龍 | 申請(專利權)人: | 朱麗莉 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/253;G06F40/289;G06F40/30 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 錢成岑 |
| 地址: | 646100 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 規則 語料庫 漢語 語病 自動檢測 方法 設備 | ||
1.一種基于規則和語料庫的漢語語病自動檢測方法,其特征在于,包括文本獲取、句子分層、自動分詞和語病檢測;
所述文本獲取為獲取待校文本數據;
所述句子分層包括讀取文本,獲取文本中的句子數量,并將獲取的文本劃分為單句;
所述自動分詞包括以下步驟:
正向切分字符串步驟,以單句為單位,獲取單句字符串長度,從左往右依次切分出長度不等的字符串,即從第一個字符開始,依次切分出N個字符、N-1個字符、N-2個字符、…、兩個字符、一個字符的字符串,N為單句字符串長度;
逆向切分字符串步驟,以單句為單位,獲取單句字符串長度,從右往左依次切分出長度不等的字符串,即從最后一個字符開始,依次切分出一個字符、兩個字符、三個字符、…、N個字符的字符串;
自動分詞步驟,將切分出的字符串依次與預先構建的語料庫中的固定式語料庫和詞語語料庫比對,若匹配成功,則輸出該字符串并標記序列號為1,2,3,...,z,若匹配失敗,則將未被標記序列號的其他單個字符逐一與預先構建的語料庫中的單字詞語料庫比對,若匹配成功,則為單字詞,輸出該單字詞并標記對應的序列號為z+1,z+2,z+3,...,若匹配失敗,則與預先構建的語料庫中的非單字詞語料庫比對,若匹配成功,則為非單字詞,輸出該非單字詞,若匹配失敗,則保留該字符;
所述語病檢測為根據所述自動分詞的結果和預先構建的語料庫進行語病檢測;
所述預先構建的語料庫包括固定式語料庫、字母語料庫、標點語料庫、拼音語料庫、繁簡字語料庫、語句語料庫、詞語語料庫和單字詞語料庫;根據所述預先構建的語料庫,進行的語病檢測包括錯別字檢測、用詞不當檢測、句法結構檢測和語義表達檢測。
2.根據權利要求1所述的一種基于規則和語料庫的漢語語病自動檢測方法,其特征在于,語病檢測包括錯別字檢測,所述錯別字檢測包括以下步驟:
錯別字正向檢測步驟,所述錯別字正向檢測步驟包括以下子步驟:
字母檢測子步驟,判斷切分字符串步驟中,切分出的字符串是否有數字或字母,若是,則將切分出的字符串與預先構建的語料庫中的字母語料庫比對,如果形式正確,則輸出該字符串,如果形式錯誤,則輸出該字符串并標記為(*);
標點檢測子步驟,判斷切分字符串步驟中,切分出的字符串中是否含有標點符號或特殊符號,若是,則將切分出的字符串與預先構建的語料庫中的標點語料庫比對,如果形式正確,則輸出該字符串,如果形式錯誤,則輸出該字符串并標記為(*);
拼音檢測子步驟,判斷切分字符串步驟中,切分出的字符串是否有拼音,若是,則將切分出的字符串與預先構建的語料庫中的拼音語料庫比對,如果形式正確,則輸出該字符串,如果形式錯誤,輸出該字符串并標記為(*);
繁體字檢測子步驟,將待校文本與預先構建的語料庫中的繁簡字語料庫比對,判斷切分字符串步驟中,切分出的字符串是否有繁體字,若是,則獲取繁體字數量,并將繁體字逐一提取,判斷它是否屬于引用或特別使用情況,若不是引用或特別使用,輸出該繁體字并標記為(*);
單字詞檢測子步驟,將自動分詞步驟中,判斷為單字詞的單字與下一單字組合,與預先構建的語料庫中的語句語料庫比對,若匹配成功,則輸出該單字;將自動分詞步驟中,判斷為非單字詞的單字與下一單字組合,與預先構建的語料庫中的語句語料庫比對,若匹配成功,則輸出該單字,若匹配失敗,則輸出該單字并標記為(*);
錯別字逆向檢測步驟,以單句為單位,從右至左,將自動分詞步驟中,判斷為單字詞的單字與下一單字組合,與預先構建的語料庫中的語句語料庫比對,若匹配成功,則輸出該單字;將自動分詞步驟中,判斷為非單字詞的單字與下一單字組合,與預先構建的語料庫中的語句語料庫比對,若匹配成功,則輸出該單字,若匹配失敗,則輸出該單字并標記為(*)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于朱麗莉,未經朱麗莉許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811268613.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:簽名信息提取方法及裝置
- 下一篇:一種基于門限卷積神經網絡的機器閱讀理解方法





