[發明專利]一種基于網絡資源的可視化采集系統及采集方法在審
| 申請號: | 201911050220.4 | 申請日: | 2019-10-31 |
| 公開(公告)號: | CN110765402A | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 韓文;張淇;秦越;劉暢;張娜 | 申請(專利權)人: | 同方知網(北京)技術有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958 |
| 代理公司: | 11340 北京天奇智新知識產權代理有限公司 | 代理人: | 陳新勝 |
| 地址: | 100084 北京市海淀區清華園清華*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 采集數據 標引 采集 數據存儲模塊 存儲數據庫 采集模塊 處理規則 配置模塊 頁面數據 知識分類 可視化 瀏覽器 分類 頁面 計算機網絡技術領域 采集程序 采集系統 操作環境 分類單元 內容特征 配置程序 提取數據 網絡資源 點選 調用 配置 存儲 渲染 訪問 | ||
本發明涉及計算機網絡技術領域,公開了一種基于網絡資源的可視化采集系統及采集方法,包括配置模塊、采集模塊、分類標引模塊和數據存儲模塊。配置模塊包括配置程序,其能夠調用瀏覽器,使得瀏覽器對待配置頁面進行渲染呈現,便于點選待配置頁面的節點,生成頁面數據提取和處理規則,實現了可視化的操作環境。采集模塊包括采集程序,其根據頁面數據提取和處理規則對待采集頁面進行訪問、提取數據,分類標引模塊包括分類單元,其能夠根據待采集頁面的內容特征,建立待采集頁面的知識分類體系,并根據知識分類體系對已采集數據進行分類,且根據已采集數據中的正文標引關鍵詞,數據存儲模塊包括存儲數據庫,存儲數據庫能夠存儲已采集數據。
技術領域
本發明涉及計算機網絡技術領域,尤其涉及一種基于網絡資源的可視化采集系統及采集方法。
背景技術
近年來,隨著信息技術和互聯網的不斷迅速發展,互聯網信息在社會和生活中的地位越來越顯著。其中,網站中包括了大量有價值的信息,例如公告內容信息,經濟數據信息,金融信息,社交信息,消費信息等,因此為了快速有效的獲取信息,故需要對網絡資源信息進行有效的采集和歸類。
目前的網絡資源采集方式,通過程序員編寫特定代碼對指定網站內容進行采集加工保存。但面對采集網址過多、字段格式差異的問題時,通過編碼的方式采集網絡資源的效率就會很低。目前這種情況下,都是通過采集工具完成相應網站的采集與提取工作。主流工具如:火車頭采集器等。但是用戶在使用這種采集工具時,需要用戶手動輸入正則表達式或可擴展標記語言路徑語言(Xml Path Language,XPath)等相應配置才能完成采集工作。而上面所說的輸入正則表達式或XPath則需要用戶了解相關技術,才可以操作采集工具,完成采集工作,使得學習成本較高,導致普通用戶無法正常使用。
因此,亟需提出一種基于網絡資源的可視化采集系統及采集方法,幫助普通用戶甚至非技術人員均可完成相應的采集工作。
發明內容
本發明的一個目的在于提供一種基于網絡資源的可視化采集系統,可以實現在數據采集的過程中,全程處于可視化的環境下,便于用戶使用。
本發明的另一個目的在于提供一種采集方法,可以輔助用戶使用上述的采集系統,從而有助于用戶進行可視化的數據采集。
為達此目的,本發明采用以下技術方案:
一種基于網絡資源的可視化采集系統,包括:
配置模塊,包括配置程序,所述配置程序用于調用瀏覽器,所述瀏覽器用于對待配置頁面進行渲染呈現,便于點選所述待配置頁面的節點,生成頁面數據提取和處理規則;
采集模塊,包括采集程序,所述采集程序根據所述頁面數據提取和處理規則對待采集頁面進行訪問、數據提取;
分類標引模塊,包括分類單元,所述分類單元用于根據所述待采集頁面的內容特征,建立所述待采集頁面的知識分類體系,所述分類單元根據所述知識分類體系對已采集數據進行分類,并根據所述已采集數據中的正文標引關鍵詞;以及
數據存儲模塊,包括存儲數據庫,所述存儲數據庫用于存儲所述已采集數據。
進一步地,根據所述待采集頁面的內容特征選擇待采集數據的資源類別,確定所述待采集頁面的元數據字段模板,并配置所述元數據字段模板內的每個元數據字段的所述頁面數據提取和處理規則。
進一步地,所述存儲數據庫采用鍵值對的存儲模式對所述已采集數據進行自定義存儲。
進一步地,所述分類標引模塊還包括排重單元,所述排重單元根據自定義的來源網站優先級列表,對所述已采集數據進行相似度排重,以保留優先級高的所述來源網站的所述已采集數據。
進一步地,所述配置程序包括輔助配置腳本,當點選所述待配置頁面的節點時,所述輔助配置腳本生成可視化編輯框,以采集或標引所述元數據字段的信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同方知網(北京)技術有限公司,未經同方知網(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911050220.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:網頁頂部導航菜單的顯示方法及系統
- 下一篇:頁巖氣儲層水平應力計算方法及系統





