[發明專利]一種基于Lucene的農業垂直搜索系統設計在審
| 申請號: | 201610901204.1 | 申請日: | 2016-10-14 |
| 公開(公告)號: | CN107958002A | 公開(公告)日: | 2018-04-24 |
| 發明(設計)人: | 馬廷彥 | 申請(專利權)人: | 哈爾濱派騰農業科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150036 黑龍江省哈爾*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lucene 農業 垂直 搜索 系統 設計 | ||
1.一種基于Lucene的農業垂直搜索系統設計,其特征在于,包括以下步驟:
第一步,研究網絡蜘蛛采集原理,研究網絡蜘蛛頁面采集原理,利用Spider作業調度系統實現定時調用網絡蜘蛛,完成對目標頁面集批量更新;采用頁面算法,及時發現并抓取網絡中出現的新頁面,進一步提高信息的實時性;采用從嚴限制抓取策略,比較精確地進行網頁信息的抓取;
第二步,研究搜索引擎中文分詞的問題,針對搜索引擎中出現的各種中文問題做出相關介紹,同時根據農業搜索引擎的特點,提出一個基于詞庫的多種分詞法共存的綜合分詞方案,并對詞庫的維護提出半智能半手工的維護詞庫的策略;
第三步,研究如何去除重復頁面的問題,針對搜索結果中出現的重復頁面問題,應用MD5算法實現重復頁面的去除;針對不同的過濾粒度要求,對MD5算法提出了使用MD5因子來控制過濾粒度的設計;
第四步,信息抽取技術的研究,結合正則表達式和HtmlParser的技術特點,對農業目標網站采用了模板法進行信息抽取;通過網頁清洗,抽取出結構化數據并以文本和數據庫的形式存儲;
第五步,農業垂直搜索系統的結構設計,通過對農業用戶和農業電子商務網站的調查、分析,并深入研究農業垂直搜索系統需要用到的各種技術后,運用面向對象的分析與設計方法,給出系統的總體結構和軟件功能模塊的具體劃分;
第六步,農業垂直搜索系統的全文搜索設計,介紹基于Java的全文索引引擎Lucene軟件包,并應用該軟件包的API來實現農業垂直系統的全文搜索;通過對Lucene的分析和研究,對系統的全文搜索進行設計;
第七步,農業垂直搜索系統的功能開發,探討基于垂直搜索和Lucene的農業搜索系統的開發方法;設計用戶接口并對系統進行測試和性能分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱派騰農業科技有限公司,未經哈爾濱派騰農業科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610901204.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能問答的實現方法及裝置
- 下一篇:一種安全監測系統的移動客戶端設計





