[發明專利]一種基于Lucene錯別字的查詢方法有效
| 申請號: | 201710685977.5 | 申請日: | 2017-08-11 |
| 公開(公告)號: | CN107506413B | 公開(公告)日: | 2020-03-20 |
| 發明(設計)人: | 張曉如;陳璟;劉嘎瓊;陳國;程文月;劉亮亮 | 申請(專利權)人: | 江蘇科技大學;江蘇科技大學海洋裝備研究院 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/289;G06F40/30 |
| 代理公司: | 北京一格知識產權代理事務所(普通合伙) 11316 | 代理人: | 滑春生 |
| 地址: | 212003*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lucene 錯別字 查詢 方法 | ||
本發明涉及一種基于Lucene錯別字的查詢方法,對所查詢文本的句子進行分詞,選第一個詞,看是否為單字詞,若為單字詞,查詢音似表、形似表,根據音似表和形似表返回出查詢結果simset,然后將查詢結果simset與后一個詞或后一個詞查詢結果simset做笛卡爾積,得出笛卡爾積結果result,用result匹配詞典中的所有詞,若匹配成功,返回出糾錯結果,加入糾錯結果集,糾錯結果集若為空,則返回空值,退出匹配,糾錯結果集若不為空,則返回所有糾錯結果,用糾錯結果查詢;查詢文本句子中的第一個詞,不是單字詞,或result匹配詞典中的所有詞,匹配不成功,往后讀取字符,重復前步驟。本發明的優點在于:本發明使得Lucene檢索能夠更加精確及人性化,提高了檢索的準確率。
技術領域
本發明屬于人工智能計算機領域中的自然語言處理,特別涉及一種基于Lucene錯別字的查詢方法。
背景技術
隨著信息處理技術和互聯網的高速發展,傳統的文本工作幾乎全部被計算機所取代,電子書、電子報紙、電子郵件、辦公文件等文本電子出版物不斷涌現,文本中的錯誤也越來越多。
目前大多采用人工校對的方法,校對工作單調,勞動強度大,效率低,人工校對的方式已經無法滿足文本校對的需求,因此研究自動文本校對對于理論和應用都具有很深遠的意義。文本自動校對是自然語言處理的主要應用之一,也是自然語言理解的難題。中文真詞錯誤是指將詞典中的一個詞寫錯成詞典中另外一個詞,而這個詞不符合當前上下文語境。例如“他接收總經理的邀請參加會議”中的“接收”是一個真詞錯誤。由于人們的粗心選擇以及對漢語詞語之間區別的認知不足,漢語文本中出現了很多的真詞錯誤。中文真詞錯誤的自動校對方法存在著以下問題:
1 )發生真詞錯誤的詞是詞典中正確的詞,對于真詞錯誤的檢查及給出修改建議,需要依據對該該詞的上下文進行考察;
2 )多數發生真詞錯誤的詞符合局部語言限制,但卻與全局語言限制發生沖突,所以要實現真詞錯誤的自動校對需要考慮該真詞與長距離的上下文是否搭配;
3)真詞錯誤會干擾整個句子的語法和語義,因此發現真詞錯誤需要很多的知識與資源;
4)數據稀疏是真詞錯誤自動校對的一個主要的障礙。
針對上述現象,專利CN 105824800 A公開了一種中文真詞錯誤自動校對方法,該方法首先利用正確詞詞典和漢字混淆集生成中文真詞混淆集;利用統計知識對當前詞進行驗證;通過同義詞泛化上下文特征緩解語料的數據稀疏問題;利用貝葉斯模型估計當前詞出現在上下文中的概率,最終判斷當前詞是否為真詞錯誤,對真詞錯誤進行標記并給出修改建議列表。本發明的中文真詞錯誤自動校對方法解決了現有技術中數據稀疏、正確詞誤判、校對效率低 等問題,具有較高的有效性和準確性;但該發明方法仍存在一定的缺陷:在實際應用中,該方法需要大量語料訓練,檢索需要消耗較多的時間,對用戶的實際體驗不是很好。
Lucene是apache軟件基金會4jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包,即它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎。
本文主要是基于Lucene,研發一種錯別字的查詢方法,以解決現有技術問題。
發明內容
本發明要解決的技術問題是提供一種基于Lucene錯別字的查詢方法,以解決上述技術問題。
為解決上述技術問題,本發明的技術方案為:一種基于Lucene錯別字的查詢方法,其創新點在于:所述查詢方法包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇科技大學;江蘇科技大學海洋裝備研究院,未經江蘇科技大學;江蘇科技大學海洋裝備研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710685977.5/2.html,轉載請聲明來源鉆瓜專利網。





