[發(fā)明專利]基于教育網絡信息主題采集方法在審
| 申請?zhí)枺?/td> | 201811571567.9 | 申請日: | 2018-12-21 |
| 公開(公告)號: | CN109670099A | 公開(公告)日: | 2019-04-23 |
| 發(fā)明(設計)人: | 陳熾昌;楊帆 | 申請(專利權)人: | 全通教育集團(廣東)股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955 |
| 代理公司: | 成都玖和知識產權代理事務所(普通合伙) 51238 | 代理人: | 胡琳梅 |
| 地址: | 528403 廣東省中山市東區(qū)*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 采集 教育網絡 信息主題 去重 頁面 網絡頁面 網頁保存 網頁文本 頁面信息 信息庫 采集器 放入 去除 下載 網頁 分析 教育 | ||
1.基于教育網絡信息主題采集方法,其特征在于,包括以下步驟:
S1、首先構造主題類緩沖池positivePool、非主題類緩沖池negtivePool兩類緩沖池,用來存放UR類實體,即URL地址集中的URL地址;兩個緩沖池初始化值均為空集合;
所述主題類緩沖池中存放與采集主題相關的URL地址,非主題類緩沖池中存放與采集主題不相關的URL地址;
緩沖池的作用是存放URL地址以便采集網頁的時候能快速使用,分為主題類和非主題類是為了形成主題類的URL地址集;所述緩沖池即為封裝好的隊列操作;
S2、根據需要采集的主題人工選取種子站點,構成搜索程序Spider的初始網頁集即URL地址集;
S3、對Web網頁的教育網絡信息主題進行Spider采集;
S4、對采集到的網絡頁面進行解析下載;提取頁面的URL地址以及文本信息;對采集到的網絡頁面進行與主題的相關性計算;過濾掉與主題無關的網絡頁面;對采集到的頁面URL地址,進行相關性計算;過濾掉與主題無關的URL地址;
S5、將過濾后與主題相關的頁面放入到主題數(shù)據庫,將與主題不相關的頁面放入到非主題數(shù)據庫;將采集到的與主題相關的URL地址存放到主題類緩沖池;
S6、對主題數(shù)據庫中的網頁進行去重處理;刪除主題數(shù)據庫中相同的頁面;并且對主題類緩沖池內的URL地址進行去重處理;
S7、提取主題數(shù)據庫中去重后頁面的URL地址;將提取到的URL地址添加到去重后主題類緩沖池內的URL地址序列中,并且進行去重處理;將去重處理后的URL地址序列存儲到主題類緩沖池,將去重處理后的網頁存儲到基于教育主題的教育信息庫。
2.如權利要求1所述的基于教育網絡信息主題采集方法,其特征在于:在步驟S3中還包括步驟:結合定點策略、緩沖池策略,記錄對應頁面地址;該模塊記錄的頁面地址最后全部提供給采集模塊進行頁面的采集;所述定點策略為只對人工選定的站點進行站內搜索;所述緩沖池策略為把采集的頁面地址放入緩沖池。
3.如權利要求2所述的基于教育網絡信息主題采集方法,其特征在于:在步驟S6和S7中采用哈希表對URL地址序列進行去重;
將所有的URL地址存儲到hashmap容器中,然后通過strhash函數(shù)計算URL的hash值;
根據計算得到的URL的hash值在hashmap容器查找,如果該hash值已經存在,則刪除該URL地址。
4.如權利要求3所述的基于教育網絡信息主題采集方法,其特征在于:步驟S4中首先分別設置頁面相關性和URL相關性的閥值,采用基于語義的向量空間模型方法進行頁面相關性計算;通過pagerank算法對URL相關性進行計算;將相關性小于閥值的頁面和URL刪除。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于全通教育集團(廣東)股份有限公司,未經全通教育集團(廣東)股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811571567.9/1.html,轉載請聲明來源鉆瓜專利網。





