[發明專利]一種大豆主題垂直搜索引擎的設計和實現方法在審
| 申請號: | 201610889512.7 | 申請日: | 2016-10-12 |
| 公開(公告)號: | CN107943801A | 公開(公告)日: | 2018-04-20 |
| 發明(設計)人: | 馬廷彥 | 申請(專利權)人: | 哈爾濱派騰農業科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/02 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150036 黑龍江省哈爾*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 大豆 主題 垂直 搜索引擎 設計 實現 方法 | ||
1.一種大豆主題垂直搜索引擎的設計和實現方法,其特征在于,所述方法包括以下步驟:
第一步,在明確研究背景的情況下,對通用搜索引擎和垂直搜索引擎的結構、原理進行分析,基于大豆主題,對主題搜索引擎的系統結構進行設計,并根據課題需要對網頁信息采集、中文分詞和索引等關鍵技術進行研究;
第二步,網頁信息采集從網絡蜘蛛、搜索策略和主題相關度三個方面進行深入的研究,主題網絡蜘蛛與通用網絡蜘蛛最大的區別為前者是有選擇的抓取主題相關的頁面,而后者則是見網頁就抓,主題網絡蜘蛛是通過搜索策略和主題相關度分析進行選擇性抓取的;本發明對搜索策略和主題相關度分析進行了研究,并對己有鏈接分析算法進行改進;
第三步,索引的網頁文檔的中文分詞預處理,本發明通過分詞器對已有的分詞算法和倒排索引技術進行介紹,并對開源Lucene索引框架進行分析;
第四步,基于以上理論研究,對大豆主題垂直搜索引擎的原型系統進行實現,主要對該系統中的網頁信息采集、索引和管理與審核三個模塊進行實現,最終為大豆門戶網站提供大豆主題數據資源。
2.根據權利要求1所述的大豆主題垂直搜索引擎的設計和實現方法,其特征在于:所述第三步中的分詞器采用IKAnalyzer2012分詞器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱派騰農業科技有限公司,未經哈爾濱派騰農業科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610889512.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種微博話題輿情計算與分析的方法
- 下一篇:一種日志分析方法和系統





