[發明專利]熱更新搜索引擎分詞字典的方法及裝置有效
| 申請號: | 202110562994.6 | 申請日: | 2021-05-24 |
| 公開(公告)號: | CN113190644B | 公開(公告)日: | 2023-01-13 |
| 發明(設計)人: | 陳晏鵬;王寧 | 申請(專利權)人: | 浪潮軟件科技有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F16/36;G06F16/335 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 孫園園 |
| 地址: | 250100 山東省濟*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 更新 搜索引擎 分詞 字典 方法 裝置 | ||
本發明公開了熱更新搜索引擎分詞字典的方法及裝置,屬于全文檢索技術領域,本發明要解決的技術問題為如何提高搜索結果的準確度,采用的技術方案為:該方法是基于用戶搜索日志自動發現新詞,并將新詞以熱更新的方式寫入到分詞字典中;具體如下:索引配置:通過分析用戶搜索日志發現新詞,并實時應用到新的搜索過程中;自動發現新詞:根據共現率計算算法分析用戶搜索日志,找出當前字典中尚未包含的新詞;熱更新字典:將新詞通過熱更新方式寫入分詞字典中,新字典可立即生效。該系統包括索引配置單元、發現單元及熱更新單元。
技術領域
本發明涉及全文檢索領域,具體地說是一種熱更新搜索引擎分詞字典的方法及裝置。
背景技術
文庫系統需要將大量文章收錄在系統中供用戶查詢、瀏覽、下載,對文庫中文章內容的查詢通常借助搜索引擎實現。就中文文章來說,搜索引擎實現中文搜索的原理如下:首先提取中文文章的標題、摘要、作者、正文等信息,利用中文分詞器將大段文本如標題、摘要、正文分成一個個的中文短語,并把短語與文章的關聯關系存儲下來,這就是建立倒排索引的過程。在搜索時,將搜索詞也進行中文分詞,利用分詞后短語來匹配搜索引擎庫中的短語,匹配成功后將短語關聯的文檔返回到前端,用戶就得到了所需的搜索結果。
中文分詞器是根據字典來進行分詞的,字典決定了索引庫中包含哪些短語。社會發展日新月異,每年都在產生很多新詞語,如“新基建”一詞,一經提出,迅速出現在眾多文章中。對于這類新詞語,如果搜索引擎不及時更新,仍按舊的分詞方式,未將“新基建”當作一個詞語時,大量與“新”和“基建”相關的文章就會被搜索出來,嚴重影響用戶體驗。此時,便需要及時發現這類新詞并加入到分詞字典中。另外,更新分詞字典往往需要重建現有索引,才能讓新詞對原有索引生效。對于文庫系統來說,搜索引擎的索引庫數據量十分龐大,頻繁重建索引是不現實的。因此,如何提高搜索結果的準確度是目前亟待解決的問題。
發明內容
本發明的技術任務是提供一種熱更新搜索引擎分詞字典的方法及裝置,來解決如何提高搜索結果的準確度的問題。
本發明的技術任務是按以下方式實現的,一種熱更新搜索引擎分詞字典的方法,該方法是基于用戶搜索日志自動發現新詞,并將新詞以熱更新的方式寫入到分詞字典中;具體如下:
索引配置:通過分析用戶搜索日志發現新詞,并實時應用到新的搜索過程中;
自動發現新詞:根據共現率計算算法分析用戶搜索日志,找出當前字典中尚未包含的新詞;
熱更新字典:將新詞通過熱更新方式寫入分詞字典中,新字典可立即生效。
作為優選,索引配置具體如下:
將文章信息寫入搜索引擎庫;
遍歷搜索日志,處理搜索詞,獲取候選序列;
分別計算候選序列中序列出現頻次及每個詞元出現的頻次,并設定頻次閾值,判斷次元的頻次是否小于閾值:
若是,則過濾掉小于閾值的詞元及對應候選序列。
更優地,將文章信息寫入搜索引擎庫具體如下:
索引:采用NGram分詞方式將文章信息進行分詞并創建倒排索引,該分詞器不依賴于分詞字典,僅與文章字面數據有關;
搜索:采用IK中文分詞器與NGram分詞器相結合的方式對用戶輸入的搜索信息進行分詞、匹配。
更優地,遍歷搜索日志,處理搜索詞,獲取候選序列具體如下:
把搜索詞按空格分成短語;
用IK中文分詞器與NGram分詞器進行分詞處理,找出可能是新詞語的短語,即被分解成包含多個詞元的序列;
將分解后序列按順序進行組合,獲得k元序列(k=2,3,4),即候選序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮軟件科技有限公司,未經浪潮軟件科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110562994.6/2.html,轉載請聲明來源鉆瓜專利網。





