[發明專利]基于用戶反饋的行業拼寫錯誤檢查方法有效
| 申請號: | 201410149427.8 | 申請日: | 2014-04-14 |
| 公開(公告)號: | CN103885938A | 公開(公告)日: | 2014-06-25 |
| 發明(設計)人: | 楊明;羅軍舟;倪俊輝;馬成平;任新才 | 申請(專利權)人: | 東南大學;焦點科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 張蘇沛 |
| 地址: | 210000 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 用戶 反饋 行業 拼寫 錯誤 檢查 方法 | ||
1.基于用戶反饋的行業拼寫錯誤檢查方法,其特征是,包括步驟:
步驟一、語料庫和用戶字典的獲取與建立:
語料庫分為用戶字典、核心語料庫和行業語料庫,作為存儲語言信息的核心統計數據,保存著整個語言的詞法、語法和語義信息,當進行拼寫錯誤檢查時,語料庫為拼寫錯誤檢查模型提供所有的單詞、語句信息,給出整個語言的全局數據;同時,根據用戶輸入的文本以及使用情況,獲取新的關于用戶的語料信息,更新語料庫和用戶字典;
在數據庫中,定義數據表對整體的語料及用戶輸入信息進行存儲;
步驟二、拼寫錯誤檢查模型的構建:
拼寫錯誤檢查模型的構建是以N-gram模型對語料庫的統計信息進行計算,取得條件概率最大的單詞鏈組合;
步驟三、系統交互界面通過使用拼寫錯誤檢查模型中的錯誤檢查和單詞推薦對用戶輸入的文本進行處理;
步驟四、更新與用戶相關的文本統計信息、字典和語料庫:對用戶的輸入和選擇的正確單詞進行統計,將正確文本中的單詞信息和上下文統計入用戶字典、核心語料庫和相應的行業語料庫。
2.根據權利要求1所述的基于用戶反饋的行業拼寫錯誤檢查方法,其特征是,所述步驟一中,有效語料庫以及用戶字典的必要條件包括:
(1)字典中不存在錯誤單詞,也即必須是從牛津、朗文等公認的標準字典中獲取的正確單詞,以及用戶自定義的行業或特殊單詞;
(2)核心語料庫足夠大,不存在行業、時效偏向性,并且必須包含有N-gram信息,用來提供基本的單詞鏈統計信息;
(3)行業語料庫按照需求進行初步的劃分,并根據用戶的選擇自然生成,某個用戶可以是多個行業語料庫的使用者;
(4)用戶字典是根據用戶的輸入需求構造的字典,可以讓用戶自行管理。
3.根據權利要求1所述的基于用戶反饋的行業拼寫錯誤檢查方法,其特征是,所述步驟二中,具體包括:
步驟2.1單詞的正確性判斷:對文本中的單詞做標準字典的匹配,如果單詞不在標準字典中,再依次使用行業語料庫和用戶字典進行判斷;如果前述三種數據表中均不存在,則判斷為錯誤單詞,進行下一步;
步驟2.2正確單詞的推薦:根據編輯距離和單詞鏈聯合概率,采用各語料庫加權計算與錯誤單詞最相關的正確單詞,選擇組合概率最大的若干個單詞構成錯誤單詞的推薦列表。
4.根據權利要求3所述的基于用戶反饋的行業拼寫錯誤檢查方法,其特征是,所述步驟2.1中,使用維特比算法在N-gram模型中快速匹配當前單詞在各個語料庫中的出現概率,并獲得當前單詞與前N-1個單詞出現的聯合概率,實現對當前單詞正確性的判定。
5.根據權利要求3所述的基于用戶反饋的行業拼寫錯誤檢查方法,其特征是,所述步驟2.2中,通過編輯距離以及單詞出現概率對推薦單詞列表進行排序,然后向用戶給出推薦結果;用來排序單詞列表的權值是對單詞在各個語料庫中的概率進行加權計算獲得的。
6.根據權利要求1所述的基于用戶反饋的行業拼寫錯誤檢查方法,其特征是,所述步驟四中,對用戶輸入的文本進行錯誤檢查后,計算用戶輸入中的文本統計信息,為用戶字典和語料庫中的N-gram數據提供更新信息,將相應的數據表更新后,用新的語料庫數據和字典提供錯誤檢查服務。
7.根據權利要求1所述的基于用戶反饋的行業拼寫錯誤檢查方法,其特征是,使用隱馬爾科夫模型檢查語料庫中使得以錯誤單詞所在位置的上下文相關單詞鏈出現概率最高的單詞作為正確單詞列表,各個語料庫具有不同的權值,通過語料庫內單詞的概率和語料庫的加權計算,得到排序后的推薦單詞列表;拼寫錯誤檢查通過用戶對推薦單詞的選擇完成。
8.根據權利要求1所述的基于用戶反饋的行業拼寫錯誤檢查方法,其特征是,采用用戶字典、核心語料庫、行業語料庫和統計語言模型,在用戶輸入一段文本后,服務器對文本進行元素化,將文本切分為N元文法下的單詞鏈集合,從而計算每個單詞鏈中最后一個單詞在語料庫中的條件概率;統計語言模型計算出若干個概率最大的單詞作為正確單詞的備選集合,如果原單詞在備選集合中,則判定原單詞正確,否則用戶從備選集合中選擇一個單詞作為正確單詞。
9.根據權利要求8所述的基于用戶反饋的行業拼寫錯誤檢查方法,其特征是,統計語言模型采用維特比算法,計算用戶文本中單詞在語料庫中加權概率最大的單詞列表;獲得推薦單詞列表的用戶,根據實際情況選擇正確的單詞及其上下文統計信息加入到和用戶相關的語料庫中;通過統計語言模型計算該單詞在用戶字典、核心語料庫和行業語料庫中的更新數據并添加到數據表中,以新的數據對下一次到來的用戶文本進行拼寫錯誤檢查。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學;焦點科技股份有限公司,未經東南大學;焦點科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410149427.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種淺水湖泊水下光場同步監測系統
- 下一篇:基于圖像識別的智能切割工藝





