日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于領域內網的搜索引擎系統及構建方法有效

專利信息
申請號: 201910367379.2 申請日: 2019-05-05
公開(公告)號: CN110134851B 公開(公告)日: 2021-10-15
發明(設計)人: 阿孜古麗;楊石兵;賈麒;張德政;謝永紅;夏超 申請(專利權)人: 北京科技大學
主分類號: G06F16/953 分類號: G06F16/953;G06F16/951;G06F16/31;G06F16/332
代理公司: 北京市廣友專利事務所有限責任公司 11237 代理人: 張仲波
地址: 100083*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 域內 搜索引擎 系統 構建 方法
【權利要求書】:

1.一種基于領域內網的搜索引擎系統的構建方法,其特征在于,所述方法包括如下步驟:

步驟S1,構建大數據存儲平臺和檢索集群;

步驟S2,構建網絡爬蟲子系統,自動抓取所述領域內網的網絡信息數據,并存儲于所述大數據存儲平臺;所述構建網絡爬蟲子系統,進一步包括:

步驟S21,手工整理所述領域內網范圍內的網絡地址作為網絡爬蟲啟動時的初始種子集;

步驟S22,以所述初始種子集為基礎,利用開源網絡爬蟲完成抓取基本數據;

步驟S23,根據所述開源網絡爬蟲生成的日志文件人工整理過濾規則庫,過濾所述基本數據中的無意義網頁;

步驟S24,根據領域內網的網絡數據特點,設計增量更新策略,選取過時的網頁數據信息進行重新抓取更新;

步驟S3,構建信息資源抽取子系統,從存儲于大數據存儲平臺的所述網絡信息數據中自動抽取資源信息數據;

其中,所述步驟S3中自動抽取資源信息數據,包括全表抽取和實時抽取;其中,

所述全表抽取基于Hbase行主鍵的資源抽取策略,一次性對Hbase表中的全部網絡數據進行抽取;所述實時抽取基于時間戳步長的資源抽取策略,對Hbase表中的新增網絡數據進行增量抽取;

其中,基于Hbase行主鍵的全表抽取,包括以下步驟:

步驟S311,反向掃描Hbase表獲取當前表中最后一條記錄的行主鍵作為本次全表資源抽取任務的終止條件;

步驟S312,根據設定的步長參數從當前表中的第一條記錄開始讀取相應規模的網頁數據;

步驟S313,利用Java開源工具Jsoup 抽取網頁HTML源碼中的圖片、文檔、視頻信息資源的絕對地址及其他屬性信息;

步驟S314,將抽取到的絕對地址及對應的各種屬性信息保存到原數據表及設計的臨時表中;

步驟S315,返回步驟S312,直至滿足終止條件;

其中,基于時間戳步長的實時抽取,包括以下步驟:

步驟S321,維護一個時間戳文件,記錄實時抽取任務的起始時間戳;

步驟S322,根據讀取的起始時間戳和時間戳步長計算對應的終止時間戳;

步驟S323,掃描Hbase數據表獲得對應時間戳范圍內記錄的行主鍵列表;

步驟S324,遍歷行主鍵列表,讀取對應的網頁數據,利用Java開源工具Jsoup抽取相應的資源信息并存儲;

步驟S325,獲取當前系統時間對應的時間戳,若大于終止時間戳,則將終止時間戳寫回時間戳文件作為下次實時抽取任務的起始時間戳,否則,將當前系統時間對應的時間戳寫回;

步驟S4,構建基于臨時表機制的同步子系統,對步驟S3所自動抽取到的資源信息數據進行自動索引;所述構建基于臨時表機制的同步子系統,包括如下步驟:

步驟S41,構建臨時表暫時存儲步驟S3抽取到的資源信息數據及其屬性信息;

步驟S42,根據設定的同步范圍循環讀取臨時表中資源信息,將讀取到的信息封裝成Json串格式,調用ElasticSearch的API接口將相關信息索引到檢索集群中;

步驟S5,構建基于中文分詞組件和領域詞表的檢索子系統,結合所述檢索集群,處理檢索關鍵詞并返回檢索結果;所述構建基于中文分詞組件和領域詞表的檢索子系統,包括如下步驟:

步驟S51,選取適合目標領域的中文分詞組件;

步驟S52,手工整理領域專業詞匯形成專業詞表;

步驟S53,在傳統的關鍵詞匹配的搜索策略的基礎上,結合中文分詞組件和領域專業詞表設計了適合領域的搜索策略;具體分為以下幾步:

步驟S531,基于領域專業詞表,對接收到的關鍵詞信息進行匹配,將匹配到的專業詞匯返回作為檢索用的關鍵詞集合的一部分;

步驟S532,基于中文分詞組件,對接收到的關鍵詞信息進行分詞處理,將分詞結果也作為檢索用的關鍵詞集合的一部分;

步驟S533,將步驟S531及步驟S532所得到的關鍵詞與原始接收到的關鍵詞合并形成最終檢索用的關鍵詞集合;

步驟S534,為關鍵詞集合中的關鍵詞分配不同的權重,其中權重大小關系為:領域專業詞表匹配到的關鍵詞 基于中文分詞組件分詞得到的關鍵詞 原始接收到的關鍵詞;

步驟S535,根據處理完畢的關鍵詞集合封裝檢索用的Json串,并提交給ElasticSearch集群進行資源檢索;

步驟S6,構建用戶接口子系統,接收用戶的檢索請求并展示返回的檢索結果。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科技大學,未經北京科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201910367379.2/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产免费一区二区三区四区五区| 大bbw大bbw巨大bbw看看| 国产精品亚洲一区二区三区| 国产免费区| 国产精品久久久av久久久| 国产在线不卡一| 韩日av一区二区| 精品国产一区二区三区久久久久久 | 日韩区欧美久久久无人区| 久久一区欧美| 国产麻豆一区二区三区精品| 中文字幕一区二区三区不卡| 一色桃子av| 免费xxxx18美国| 丰满少妇在线播放bd日韩电影| 亚洲制服丝袜中文字幕| 99国产精品久久久久99打野战| 偷拍精品一区二区三区| 午夜社区在线观看| 日韩欧美国产高清91| 精品香蕉一区二区三区| 国产在线欧美在线| 丰满少妇高潮惨叫久久久| 亚洲一区欧美| 超碰97国产精品人人cao| 九一国产精品| 国产99视频精品免视看芒果| 99久久久久久国产精品| 亚洲精品www久久久| 97人人模人人爽视频一区二区| 少妇高潮大叫喷水| 亚洲自偷精品视频自拍| 二区三区视频| 国产一区二区三区乱码| 欧美日韩一区二区三区在线播放| 午夜诱惑影院| 麻豆精品一区二区三区在线观看| 6080日韩午夜伦伦午夜伦| 中文字幕亚洲欧美日韩在线不卡| 国产午夜精品一区理论片飘花| 狠狠色噜噜狠狠狠狠| 一区二区久久久久| 亚洲二区在线播放视频| 亚洲欧美国产中文字幕| 亚洲少妇中文字幕| 亚洲国产精品综合| 久久第一区| 午夜影院激情| 一区二区三区国产精品视频| 国产精品一卡二卡在线观看| 日韩亚洲欧美一区二区| 国产精品9区| 国产真裸无庶纶乱视频| 国产精品一卡二卡在线观看| 狠狠插影院| 亚洲一二三四区| 国产精品色婷婷99久久精品| 欧美一区二区综合| 欧美日韩一级在线观看| 免费a级毛片18以上观看精品| 精品国产一区二区三区国产馆杂枝| 99国产超薄丝袜足j在线观看| 国产性猛交| 91久久国产露脸精品| 亚洲精品国产主播一区| 久爱视频精品| 欧美69精品久久久久久不卡| 欧美在线视频一二三区| 亚洲s码欧洲m码在线观看| 一区二区在线国产| 大桥未久黑人强制中出| 日韩无遮挡免费视频| 精品国产乱码一区二区三区在线| 福利电影一区二区三区| 国产91综合一区在线观看| 午夜看片网站| 欧美一区二区三区爽大粗免费| 日本一二三不卡| 午夜欧美影院| 欧美日韩中文字幕一区| 99久久婷婷国产亚洲终合精品| 国产一区二区三区久久久|