[發明專利]一種基于領域內網的搜索引擎系統及構建方法有效
| 申請號: | 201910367379.2 | 申請日: | 2019-05-05 |
| 公開(公告)號: | CN110134851B | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 阿孜古麗;楊石兵;賈麒;張德政;謝永紅;夏超 | 申請(專利權)人: | 北京科技大學 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/951;G06F16/31;G06F16/332 |
| 代理公司: | 北京市廣友專利事務所有限責任公司 11237 | 代理人: | 張仲波 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 域內 搜索引擎 系統 構建 方法 | ||
1.一種基于領域內網的搜索引擎系統的構建方法,其特征在于,所述方法包括如下步驟:
步驟S1,構建大數據存儲平臺和檢索集群;
步驟S2,構建網絡爬蟲子系統,自動抓取所述領域內網的網絡信息數據,并存儲于所述大數據存儲平臺;所述構建網絡爬蟲子系統,進一步包括:
步驟S21,手工整理所述領域內網范圍內的網絡地址作為網絡爬蟲啟動時的初始種子集;
步驟S22,以所述初始種子集為基礎,利用開源網絡爬蟲完成抓取基本數據;
步驟S23,根據所述開源網絡爬蟲生成的日志文件人工整理過濾規則庫,過濾所述基本數據中的無意義網頁;
步驟S24,根據領域內網的網絡數據特點,設計增量更新策略,選取過時的網頁數據信息進行重新抓取更新;
步驟S3,構建信息資源抽取子系統,從存儲于大數據存儲平臺的所述網絡信息數據中自動抽取資源信息數據;
其中,所述步驟S3中自動抽取資源信息數據,包括全表抽取和實時抽取;其中,
所述全表抽取基于Hbase行主鍵的資源抽取策略,一次性對Hbase表中的全部網絡數據進行抽取;所述實時抽取基于時間戳步長的資源抽取策略,對Hbase表中的新增網絡數據進行增量抽取;
其中,基于Hbase行主鍵的全表抽取,包括以下步驟:
步驟S311,反向掃描Hbase表獲取當前表中最后一條記錄的行主鍵作為本次全表資源抽取任務的終止條件;
步驟S312,根據設定的步長參數從當前表中的第一條記錄開始讀取相應規模的網頁數據;
步驟S313,利用Java開源工具Jsoup 抽取網頁HTML源碼中的圖片、文檔、視頻信息資源的絕對地址及其他屬性信息;
步驟S314,將抽取到的絕對地址及對應的各種屬性信息保存到原數據表及設計的臨時表中;
步驟S315,返回步驟S312,直至滿足終止條件;
其中,基于時間戳步長的實時抽取,包括以下步驟:
步驟S321,維護一個時間戳文件,記錄實時抽取任務的起始時間戳;
步驟S322,根據讀取的起始時間戳和時間戳步長計算對應的終止時間戳;
步驟S323,掃描Hbase數據表獲得對應時間戳范圍內記錄的行主鍵列表;
步驟S324,遍歷行主鍵列表,讀取對應的網頁數據,利用Java開源工具Jsoup抽取相應的資源信息并存儲;
步驟S325,獲取當前系統時間對應的時間戳,若大于終止時間戳,則將終止時間戳寫回時間戳文件作為下次實時抽取任務的起始時間戳,否則,將當前系統時間對應的時間戳寫回;
步驟S4,構建基于臨時表機制的同步子系統,對步驟S3所自動抽取到的資源信息數據進行自動索引;所述構建基于臨時表機制的同步子系統,包括如下步驟:
步驟S41,構建臨時表暫時存儲步驟S3抽取到的資源信息數據及其屬性信息;
步驟S42,根據設定的同步范圍循環讀取臨時表中資源信息,將讀取到的信息封裝成Json串格式,調用ElasticSearch的API接口將相關信息索引到檢索集群中;
步驟S5,構建基于中文分詞組件和領域詞表的檢索子系統,結合所述檢索集群,處理檢索關鍵詞并返回檢索結果;所述構建基于中文分詞組件和領域詞表的檢索子系統,包括如下步驟:
步驟S51,選取適合目標領域的中文分詞組件;
步驟S52,手工整理領域專業詞匯形成專業詞表;
步驟S53,在傳統的關鍵詞匹配的搜索策略的基礎上,結合中文分詞組件和領域專業詞表設計了適合領域的搜索策略;具體分為以下幾步:
步驟S531,基于領域專業詞表,對接收到的關鍵詞信息進行匹配,將匹配到的專業詞匯返回作為檢索用的關鍵詞集合的一部分;
步驟S532,基于中文分詞組件,對接收到的關鍵詞信息進行分詞處理,將分詞結果也作為檢索用的關鍵詞集合的一部分;
步驟S533,將步驟S531及步驟S532所得到的關鍵詞與原始接收到的關鍵詞合并形成最終檢索用的關鍵詞集合;
步驟S534,為關鍵詞集合中的關鍵詞分配不同的權重,其中權重大小關系為:領域專業詞表匹配到的關鍵詞 基于中文分詞組件分詞得到的關鍵詞 原始接收到的關鍵詞;
步驟S535,根據處理完畢的關鍵詞集合封裝檢索用的Json串,并提交給ElasticSearch集群進行資源檢索;
步驟S6,構建用戶接口子系統,接收用戶的檢索請求并展示返回的檢索結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科技大學,未經北京科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910367379.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種搜索方法及裝置
- 下一篇:一種文檔的去重方法、設備及可讀介質





