[發明專利]一種基于SOLR的關鍵字詞識別辦法在審
| 申請號: | 201610103279.5 | 申請日: | 2016-02-25 |
| 公開(公告)號: | CN105787029A | 公開(公告)日: | 2016-07-20 |
| 發明(設計)人: | 郭特宇;程林 | 申請(專利權)人: | 浪潮軟件集團有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 劉繼枝 |
| 地址: | 250100 山東省*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 solr 關鍵 字詞 識別 辦法 | ||
1.一種基于SOLR的關鍵字詞識別辦法,其特征在于,該方法如下:在后臺數據庫增加關 鍵字詞配置表,分別記錄敏感字詞庫及相關字詞庫,敏感字詞庫和相關字詞庫會保存到緩 存中以提高讀取速度,并配置定時更新緩存機制;
在WEB前端用戶交互頁面中,增加攔截方法,對用戶提交的搜索字詞調用識別器進行處 理,進行關鍵字詞識別后,根據處理結果確定是拒絕檢索返回提醒用戶修改搜索字詞,或者 通過提交到Solr后臺進行檢索結果操作,并將檢索結果返回給用戶。
2.根據權利要求1所述的一種基于SOLR的關鍵字詞識別辦法,其特征在于,該方法在提 交新數據內容進入到索引庫前,調用識別器對數據內容進行處理,進行關鍵字詞識別后,根 據處理結果確定是拒絕納入索引返回提醒用戶修改數據內容,或者通過提交到Solr后臺進 行數據抽取、轉換,建立索引保存到索引庫中。
3.根據權利要求1所述的一種基于SOLR的關鍵字詞識別辦法,其特征在于,所述的進行 關鍵字詞識別后,如果查詢字詞中存在敏感字詞,則返回命中敏感字詞標識為真,否則返回 命中敏感字詞標識為假;如果查詢字詞中存在相關性字詞,則返回命中相關字詞標識為真, 否則返回命中相關字詞標識為假;
若敏感字詞標識為假且相關字詞標識為真時,提交到Solr搜索器進行搜索處理;若敏 感字詞標識為真或相關字詞標識為假時,直接返回頁面提醒用戶修改查詢字詞。
4.根據權利要求3所述的一種基于SOLR的關鍵字詞識別辦法,其特征在于,所述的關鍵 字詞識別步驟如下:用戶通過WEB頁面提交數據內容,數據內容至多由兩個字段構成,包括 字段:標題、正文內容;數據內容被傳遞到分詞器,根據分詞規則和分詞表,對數據內容進行 切詞,得到關鍵字詞結果;識別器根據這些查詢字詞遍歷敏感字詞庫和相關字詞庫,得到匹 配結果,并返回處理結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮軟件集團有限公司,未經浪潮軟件集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610103279.5/1.html,轉載請聲明來源鉆瓜專利網。





