[發(fā)明專利]基于教育網絡信息主題采集方法在審

申請?zhí)枺?/td>	201811571567.9	申請日：	2018-12-21
公開（公告）號：	CN109670099A	公開（公告）日：	2019-04-23
發(fā)明（設計）人：	陳熾昌;楊帆	申請（專利權）人：	全通教育集團（廣東）股份有限公司
主分類號：	G06F16/951	分類號：	G06F16/951;G06F16/955
代理公司：	成都玖和知識產權代理事務所(普通合伙) 51238	代理人：	胡琳梅
地址：	528403 廣東省中山市東區(qū)***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	采集教育網絡信息主題去重頁面網絡頁面網頁保存網頁文本頁面信息信息庫采集器放入去除下載網頁分析教育
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.基于教育網絡信息主題采集方法，其特征在于，包括以下步驟：

S1、首先構造主題類緩沖池positivePool、非主題類緩沖池negtivePool兩類緩沖池，用來存放UR類實體，即URL地址集中的URL地址；兩個緩沖池初始化值均為空集合；

所述主題類緩沖池中存放與采集主題相關的URL地址，非主題類緩沖池中存放與采集主題不相關的URL地址；

緩沖池的作用是存放URL地址以便采集網頁的時候能快速使用，分為主題類和非主題類是為了形成主題類的URL地址集；所述緩沖池即為封裝好的隊列操作；

S2、根據需要采集的主題人工選取種子站點，構成搜索程序Spider的初始網頁集即URL地址集；

S3、對Web網頁的教育網絡信息主題進行Spider采集；

S4、對采集到的網絡頁面進行解析下載；提取頁面的URL地址以及文本信息；對采集到的網絡頁面進行與主題的相關性計算；過濾掉與主題無關的網絡頁面；對采集到的頁面URL地址，進行相關性計算；過濾掉與主題無關的URL地址；

S5、將過濾后與主題相關的頁面放入到主題數(shù)據庫，將與主題不相關的頁面放入到非主題數(shù)據庫；將采集到的與主題相關的URL地址存放到主題類緩沖池；

S6、對主題數(shù)據庫中的網頁進行去重處理；刪除主題數(shù)據庫中相同的頁面；并且對主題類緩沖池內的URL地址進行去重處理；

S7、提取主題數(shù)據庫中去重后頁面的URL地址；將提取到的URL地址添加到去重后主題類緩沖池內的URL地址序列中，并且進行去重處理；將去重處理后的URL地址序列存儲到主題類緩沖池，將去重處理后的網頁存儲到基于教育主題的教育信息庫。

2.如權利要求1所述的基于教育網絡信息主題采集方法，其特征在于：在步驟S3中還包括步驟：結合定點策略、緩沖池策略，記錄對應頁面地址；該模塊記錄的頁面地址最后全部提供給采集模塊進行頁面的采集；所述定點策略為只對人工選定的站點進行站內搜索；所述緩沖池策略為把采集的頁面地址放入緩沖池。

3.如權利要求2所述的基于教育網絡信息主題采集方法，其特征在于：在步驟S6和S7中采用哈希表對URL地址序列進行去重；

將所有的URL地址存儲到hashmap容器中，然后通過strhash函數(shù)計算URL的hash值；

根據計算得到的URL的hash值在hashmap容器查找，如果該hash值已經存在，則刪除該URL地址。

4.如權利要求3所述的基于教育網絡信息主題采集方法，其特征在于：步驟S4中首先分別設置頁面相關性和URL相關性的閥值，采用基于語義的向量空間模型方法進行頁面相關性計算；通過pagerank算法對URL相關性進行計算；將相關性小于閥值的頁面和URL刪除。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于全通教育集團（廣東）股份有限公司，未經全通教育集團（廣東）股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811571567.9/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】