[發明專利]基于用戶反饋的行業拼寫錯誤檢查方法有效
| 申請號: | 201410149427.8 | 申請日: | 2014-04-14 |
| 公開(公告)號: | CN103885938A | 公開(公告)日: | 2014-06-25 |
| 發明(設計)人: | 楊明;羅軍舟;倪俊輝;馬成平;任新才 | 申請(專利權)人: | 東南大學;焦點科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 張蘇沛 |
| 地址: | 210000 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 用戶 反饋 行業 拼寫 錯誤 檢查 方法 | ||
技術領域
本發明是一種英文拼寫錯誤檢查方法,利用了包含大量語言信息的語料庫、自然語言統計模型以及隱馬爾科夫模型等相關技術,涉及自然語言處理特別是英文拼寫檢查領域。
背景技術
首先對本發明中用到的縮寫進行定義:
NLP(Natural?Language?Processing):自然語言處理;
BNC(British?National?Corpus):英國國家語料庫;
LDC(Linguistic?Data?Consortium):語言數據聯盟;
LD(Levenshtein?Distance):編輯距離;
N-gram:N元語法。
拼寫錯誤檢查(Spelling?Checker)是NLP的一個重要分支和基礎環節,它將自然語言處理為無錯誤和可理解的文本,對于機器翻譯、語音合成、語音識別等高級的NLP技術有著天然的支撐作用。同時,這項技術可以有效提高用戶界面的友好性和智能性,具有重要的實際應用價值。
早期的NLP主要采用基于句法-語義規則的方法。隨著語料庫建設和語料庫語言學的崛起,大規模真實文本的處理成為自然語言處理的主要目標。基于規則的方法在發展多年以后,依然不能突破準確率和效率兩方面的制約,而統計方法逐漸展現出在自然語言處理領域更多的優勢。自然語言處理中越來越多地使用基于統計的自動學習方法來獲取語言知識,這也包括拼寫錯誤檢查在內。基于統計的方法主要涉及語料庫和統計語言模型兩個方面。
多個組織和研究機構提供了各自的語料庫及其各種統計數據,如面向文本分類研究的中英文新聞分類語料、BNC、LDC、Gutenberg項目提供的4200多本免費電子書、萬篇隨機抽取論文中文DBLP資源、UCI評價排序數據等。
Google的Brants與Franz將網頁文本用Penn?Treebank的方式進行了元素化,總共產生了超過1T的數據,詳細內容如表1所示。Google公布的基于1T網頁文本數據的5-grams語料庫是目前基于統計方法的比較全面的英文語料庫。該語料庫提供了從1~5-grams的統計信息,為基于統計方法的自然語言處理提供豐富的分析數據來源。
語料庫方面,字典為單詞糾錯提供了最基本的非詞錯誤檢查能力,設計具有良好的管理接口、可擴展的標準字典,可以為用戶提供單詞檢測的基本功能和提高系統性能;支持統計方法的語料庫是實現拼寫錯誤檢查的基礎,它為自然語言處理模型提供了規模可觀、信息詳實的可用數據;基于語義的語料庫是專業領域劃分的優良模型,但由于語法規則的低效,這一方法無法得到實用。需要采用統計方法間接地實現行業分類的語料庫。
傳統的拼寫錯誤檢查注重于解決將正確單詞輸入為無效單詞的非詞錯誤檢查,常用的方法是使用一個可靠的詞庫和確定的距離測度,如LD。由于人工建立可靠詞庫的代價很高,傳統的拼寫檢查使用的詞庫是比較小的。隨著統計模型被引入到拼寫錯誤中,錯誤模型與N-gram語言模型成為拼寫錯誤檢查系統的關鍵組成部分。Kukich提出錯誤概率的轉移矩陣與特征向量在拼寫糾錯中的應用,是后來N-gram方法實現的基礎。Brill和Moore證明了一個好的統計模型是提高拼寫檢查精度的關鍵,但建立這樣的錯誤模型需要對糾錯詞組做大量的手工標記,這涉及到極高的成本。Whitelaw等使用Web文本在一定程度上提高了這一效率。隨著Web技術和應用的發展,拼寫錯誤檢查也越來越受到關注,更多的拼寫錯誤類型被提及,如漏寫、錯增字母,交換若干字母的順序,錯誤的合并、拆分單詞,誤用單詞等等。這些方法主要解決的問題是查找輸入錯誤、搜索候選單詞空間和建立候選單詞評分函數。
現有拼寫錯誤檢查模型中,大部分都是基于N-gram模型的離線模型,這一方法現在已經成為拼寫檢查研究的主流。模型的主要思路是使用擴展的貝葉斯公式計算自然語言中的統計信息,最大的特點是采用了統計方法、模型簡單高效。當前研究主要使用的工具是N-gram模型、擴展的貝葉斯公式和隱馬爾科夫模型。分為用貝葉斯公式統計單詞概率、使用隱馬爾科夫模型求解N-gram模型參數以及貝葉斯公式中隱馬爾科夫模型的快速求解這幾個方面。模型的效率和實用性是這一領域迫切需要解決的問題。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學;焦點科技股份有限公司,未經東南大學;焦點科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410149427.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種淺水湖泊水下光場同步監測系統
- 下一篇:基于圖像識別的智能切割工藝





