[發明專利]一種大豆主題垂直搜索引擎的設計和實現方法在審
| 申請號: | 201610889512.7 | 申請日: | 2016-10-12 |
| 公開(公告)號: | CN107943801A | 公開(公告)日: | 2018-04-20 |
| 發明(設計)人: | 馬廷彥 | 申請(專利權)人: | 哈爾濱派騰農業科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/02 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150036 黑龍江省哈爾*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 大豆 主題 垂直 搜索引擎 設計 實現 方法 | ||
技術領域
本發明涉及一種大豆主題垂直搜索引擎的設計和實現方法,屬于農業互聯網搜索引擎領域。
背景技術
隨著互聯網技術的快速發展,網絡信息資源呈現出爆炸性增長態勢,如何快速找到滿足用戶需求的信息成為越來越重要的問題;目前,搜索引擎已成為互聯網最重要的應用之一,傳統的通用搜索引擎為所有用戶提供統一接口,但隨著信息量的持續增長,其已不能滿足特定領域用戶對信息準確性、實時性和深度等多方面的個性化需求,因而,專門用來查詢某一學科領域或主題的搜索引擎即垂直搜索引擎應運而生,并得到快速的發展和廣泛的應用。目前,互聯網上的大豆相關信息極為豐富和廣泛,一方面,對于從事大豆生產加工工作的豆農,不能很好地甚至不會利用搜索引擎在網絡上進行信息查詢,從而不能掌握大豆相關的最新技術信息,如大豆病蟲害防治、種植技術及市場價格等信息,阻礙大豆產業的快速發展,因此,建立大豆門戶網站對大豆產業信息資源進行整合,以提高資源共享的程度,本發明采用垂直搜索技術對大豆產業信息資源進行搜集,為大豆門戶網站提供數據支撐;另一方面,對于從事大豆科研及流通工作的人員大多通過搜索引擎在互聯網上獲取相關信息;當用戶使用通用搜索引擎進行信息檢索時,往往得到的是海量的含有重復信息和垃圾信息的數據集,用戶不能快速、準確的定位到需求信息;因此,需要設計一個面向大豆主題的垂直搜索引擎系統,為大豆領域的用戶提供專業的搜索,為用戶提供高質量的數據集,減少用戶檢索信息所耗費的時間和精力,以使用戶在互聯網上能夠快速、準確地定位信息。
發明內容
為解決上述問題,本發明提出了一種大豆主題垂直搜索引擎的設計和實現方法,立足于糧食主產區農業現實狀況,針對農業信息化中普遍存在的信息資源共享程度低的問題,尤其是大豆產業信息化建設,為從事大豆生產、加工、科研及流通工作的人員提供數據資源共享并設計面向大豆主題的垂直搜索引擎。
本發明的大豆主題垂直搜索引擎的設計和實現方法,所述方法包括以下步驟:
第一步,在明確研究背景的情況下,對通用搜索引擎和垂直搜索引擎的結構、原理進行分析,基于大豆主題,對主題搜索引擎的系統結構進行設計,并根據課題需要對網頁信息采集、中文分詞和索引等關鍵技術進行研究;
第二步,網頁信息采集從網絡蜘蛛、搜索策略和主題相關度三個方面進行深入的研究,主題網絡蜘蛛與通用網絡蜘蛛最大的區別為前者是有選擇的抓取主題相關的頁面,而后者則是見網頁就抓,主題網絡蜘蛛是通過搜索策略和主題相關度分析進行選擇性抓取的;本發明對搜索策略和主題相關度分析進行了研究,并對己有鏈接分析算法進行改進;
第三步,索引的網頁文檔的中文分詞預處理,本發明通過分詞器對已有的分詞算法和倒排索引技術進行介紹,并對開源Lucene索引框架進行分析;
第四步,基于以上理論研究,對大豆主題垂直搜索引擎的原型系統進行實現,主要對該系統中的網頁信息采集、索引和管理與審核三個模塊進行實現,最終為大豆門戶網站提供大豆主題數據資源。
作為優選的實施方案,所述第三步中的分詞器采用IKAnalyzer2012分詞器。
本發明與現有技術相比較,本發明的大豆主題垂直搜索引擎的設計和實現方法,立足于糧食主產區農業現實狀況,針對農業信息化中普遍存在的信息資源共享程度低的問題,尤其是大豆產業信息化建設,為從事大豆生產、加工、科研及流通工作的人員提供數據資源共享并設計面向大豆主題的垂直搜索引擎。
具體實施方式
本發明的大豆主題垂直搜索引擎的設計和實現方法,所述方法包括以下步驟:
第一步,在明確研究背景的情況下,對通用搜索引擎和垂直搜索引擎的結構、原理進行分析,基于大豆主題,對主題搜索引擎的系統結構進行設計,并根據課題需要對網頁信息采集、中文分詞和索引等關鍵技術進行研究;
第二步,網頁信息采集從網絡蜘蛛、搜索策略和主題相關度三個方面進行深入的研究,主題網絡蜘蛛與通用網絡蜘蛛最大的區別為前者是有選擇的抓取主題相關的頁面,而后者則是見網頁就抓,主題網絡蜘蛛是通過搜索策略和主題相關度分析進行選擇性抓取的;本發明對搜索策略和主題相關度分析進行了研究,并對己有鏈接分析算法進行改進;
第三步,索引的網頁文檔的中文分詞預處理,本發明通過分詞器對已有的分詞算法和倒排索引技術進行介紹,并對開源Lucene索引框架進行分析;
第四步,基于以上理論研究,對大豆主題垂直搜索引擎的原型系統進行實現,主要對該系統中的網頁信息采集、索引和管理與審核三個模塊進行實現,最終為大豆門戶網站提供大豆主題數據資源。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱派騰農業科技有限公司,未經哈爾濱派騰農業科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610889512.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種微博話題輿情計算與分析的方法
- 下一篇:一種日志分析方法和系統





