[發明專利]一種基于領域內網的搜索引擎系統及構建方法有效
| 申請號: | 201910367379.2 | 申請日: | 2019-05-05 |
| 公開(公告)號: | CN110134851B | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 阿孜古麗;楊石兵;賈麒;張德政;謝永紅;夏超 | 申請(專利權)人: | 北京科技大學 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/951;G06F16/31;G06F16/332 |
| 代理公司: | 北京市廣友專利事務所有限責任公司 11237 | 代理人: | 張仲波 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 域內 搜索引擎 系統 構建 方法 | ||
本發明提供了一種基于領域內網的搜索引擎系統及構建方法,用以解決現有技術無法滿足搜索引擎的專業化、個性化需求的問題。所述構建方法,通過爬蟲策略抓取原始網絡信息數據并存儲到構建的大數據存儲平臺中,再從網絡信息數據中抽取資源信息,而后基于臨時表的同步機制,將資源信息索引到檢索集群中;再基于中文分詞組件和領域詞表的搜索策略,提高信息檢索的速度與精度。本發明的搜索引擎系統及構建方法,基于通用搜索引擎系統的一般框架模式,為面向特定領域的輕量級內網搜索引擎系統的構建開辟了一條新的思路,能夠自動獲取給定內網網絡中的各種信息資源并建立索引,提供搜索服務,具有專業性和較高的搜索效率,同時可靈活應用于各種領域。
技術領域
本發明屬于信息檢索領域,具體涉及一種輕量級的基于領域內網的搜索引擎系統及構建方法。
背景技術
信息,是影響現代社會發展的三大支柱之一。為了高效利用浩繁的信息,需要有效的對有用的信息進行定位和檢索,排除掉其他無用信息的干擾。搜索引擎(Search Engine)是指根據一定的策略、運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,根據用戶的需求,將用戶檢索相關的信息展示給用戶的系統。
搜索引擎是一種時代產物,它的出現是為了提高人們的生活質量的。研究搜索引擎的最終目的,就是以需要使用搜索引擎服務的用戶為中心,以滿足用戶搜索需求為目標,以提高搜索質量和用戶體驗為宗旨,輔以分布式計算、中文分詞等技術,優化改進搜索引擎系統,提高信息定位和檢索的速度和質量,提供優質的信息檢索服務。
現有技術中,大多數搜索引擎都是基于公共網絡領域的,當用戶需要檢索某個專門領域的信息時,則顯得力不從心。雖然也有一些搜索引擎具有一定的專業性,可提供一定的個性化服務,但是其檢索范圍有限,且計算繁鎖,效率低下,無法滿足用戶的需求。
發明內容
本發明要解決的技術問題是針對現有技術無法滿足搜索引擎的專業化、個性化需求的問題,提供一種基于領域內網的搜索引擎系統及構建方法,從給定范圍內網網絡出發,依次設計高效的爬蟲策略、資源抽取策略以及信息檢索策略,從而構建形成領域內網的搜索引擎系統,不僅具有專業性,而且可靈活應用于各種領域。
為解決上述技術問題,本發明實施例提供了一種基于領域內網的搜索引擎系統的構建方法,所述方法包括如下步驟:
步驟S1,構建大數據存儲平臺和檢索集群;
步驟S2,構建網絡爬蟲子系統,自動抓取所述領域內網的網絡信息數據,并存儲于所述大數據存儲平臺;
步驟S3,構建信息資源抽取子系統,從存儲于大數據存儲平臺的網絡信息數據中自動抽取資源信息數據;
步驟S4,構建基于臨時表機制的同步子系統,對步驟S3所自動抽取到的資源信息數據進行自動索引;
步驟S5,構建基于中文分詞組件和領域詞表的檢索子系統,結合所述檢索集群,處理檢索關鍵詞并返回檢索結果;
步驟S6,構建用戶接口子系統,接收用戶的檢索請求并展示返回的檢索結果。
上述方案中,所述構建的大數據存儲平臺和檢索集群,進一步包括:
步驟S11,基于Hadoop平臺以及Hbase數據庫,構建分布式大數據平臺;
步驟S12,基于ElasticSearch搜索服務框架,構建分布式檢索集群。
上述方案中,所述構建網絡爬蟲子系統,進一步包括:
步驟S21,手工整理所述領域內網范圍內的網絡地址作為網絡爬蟲啟動時的初始種子集;
步驟S22,以所述初始種子集為基礎,利用開源網絡爬蟲(Nutch)完成抓取基本數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科技大學,未經北京科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910367379.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種搜索方法及裝置
- 下一篇:一種文檔的去重方法、設備及可讀介質





