[發(fā)明專利]用于大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)采集的信源管理與配置方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201811637397.X | 申請日: | 2018-12-29 |
| 公開(公告)號: | CN109753596B | 公開(公告)日: | 2021-05-25 |
| 發(fā)明(設(shè)計)人: | 程學(xué)旗;郭巖;賀廣福;周秀花;俞曉明;史存會;孟劍;姜世勇;肖若晗;趙嶺;張樂;焦利穎;周映彤;余智華;劉悅 | 申請(專利權(quán))人: | 中國科學(xué)院計算技術(shù)研究所 |
| 主分類號: | G06F16/95 | 分類號: | G06F16/95 |
| 代理公司: | 北京律誠同業(yè)知識產(chǎn)權(quán)代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 大規(guī)模 網(wǎng)絡(luò) 數(shù)據(jù) 采集 信源 管理 配置 方法 系統(tǒng) | ||
本發(fā)明涉及一種網(wǎng)絡(luò)數(shù)據(jù)采集的信源管理與配置方法,包括:感知網(wǎng)絡(luò)數(shù)據(jù)的信息來源,將該信息來源拆分為傳媒、信簇和信源;根據(jù)信簇類別對該信簇進(jìn)行類別標(biāo)注;根據(jù)信源類別對該信源進(jìn)行類別標(biāo)注;根據(jù)該信源的信源類別配置采集模板;根據(jù)該信源所包含的網(wǎng)絡(luò)數(shù)據(jù)配置抽取模板;當(dāng)驗證該信源為潛在失效信源時,將該信源置為無效,或重新配置該采集模板和/或該抽取模板。本發(fā)明的信源管理與配置系統(tǒng),通過“傳媒?信簇?信源”三級結(jié)構(gòu)的分層概念體系和多維度的信息來源分類體系對來自不同類型的信息來源進(jìn)行合理高效組織,進(jìn)而實現(xiàn)對大規(guī)模網(wǎng)絡(luò)信息來源的精確感知并設(shè)計采集策略。
技術(shù)領(lǐng)域
本發(fā)明屬于網(wǎng)絡(luò)信息處理領(lǐng)域,特別涉及一種用于網(wǎng)絡(luò)空間的大規(guī)模數(shù)據(jù)采集的信源管理與信源配置方法及系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)上除了新聞、論壇、博客等傳統(tǒng)媒體,還涌現(xiàn)出了微博、微信、新聞APP、社交類網(wǎng)站等多種新型媒體,這些媒體都是互聯(lián)網(wǎng)信息的信息來源。不同類型的信息來源在網(wǎng)站結(jié)構(gòu)、信息的組織方式等方面都存在很大的區(qū)別。對各種類型的信息來源進(jìn)行統(tǒng)一的高效管理,是準(zhǔn)確、全面、及時地感知互聯(lián)網(wǎng)信息的首要步驟。信息來源的管理包括對已有信息來源進(jìn)行系統(tǒng)化的合理組織,以及對新信息來源的快速感知。信息來源的管理范圍和效率決定了可獲取的信息在互聯(lián)網(wǎng)上的覆蓋率和準(zhǔn)確率。
從多種類型的信息來源中獲取結(jié)構(gòu)化數(shù)據(jù),是大多數(shù)網(wǎng)絡(luò)應(yīng)用不可缺少的環(huán)節(jié)之一。結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量從基礎(chǔ)上決定了網(wǎng)絡(luò)應(yīng)用服務(wù)的效果。從互聯(lián)網(wǎng)信息來源中獲取結(jié)構(gòu)化數(shù)據(jù)包括網(wǎng)頁的抓取和從網(wǎng)頁中提取結(jié)構(gòu)化數(shù)據(jù)這兩個主要步驟。為了提高結(jié)構(gòu)化數(shù)據(jù)獲取的效率與準(zhǔn)確率,需要在一些先驗知識的指導(dǎo)下完成網(wǎng)頁的抓取和網(wǎng)頁信息的提取。這些先驗知識作為規(guī)則記錄在模板中。采集模板中記錄了網(wǎng)頁的抓取規(guī)則,抽取模板中記錄了網(wǎng)頁的信息提取規(guī)則。每個信息來源需要特定的模板。不同類型的信息來源,需要的模板不同,相同類型的信息來源,需要的模板在大多數(shù)情況下也不同。采集模板和提取模板的生成都需要一定程度的人工參與。生成模板的過程即為模板的配置過程,模板不同,配置方式也不同。對來自多種類型的信息來源進(jìn)行個性化、半自動化、精準(zhǔn)的模板配置,是獲取高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵。
面對來自多種信息來源且異構(gòu)的海量數(shù)據(jù),信息來源的管理與配置是互聯(lián)網(wǎng)信息處理中亟待解決的問題之一。已有技術(shù)多以針對單一種類型的信息來源進(jìn)行管理與配置為主。
在信息來源的管理方面,已有技術(shù)通常根據(jù)不同信息來源的信息組織特點(diǎn)分別進(jìn)行管理與感知。其中,對新聞、論壇、新聞APP的組織,多以網(wǎng)站為粒度;對博客多以博主為粒度;對微博、微信、社交類網(wǎng)站多以賬號為粒度進(jìn)行管理。由于缺乏針對多種類型的信息來源的統(tǒng)一管理模式,使得不同類型的信息來源無法有機(jī)地組織在一起,并造成管理缺失與混亂。例如無法利用不同類型的信息來源在內(nèi)容等方面的相關(guān)性,對信息來源進(jìn)行更高效、更靈活的管理;在面對未知類型的信息來源時,無法將其快速納入管理體系中,從而無法對新型媒體進(jìn)行有效的信息來源管理,以及高效高質(zhì)的信息獲取。
在信息來源的配置方面,配置方式通常和使用的采集技術(shù)、網(wǎng)頁信息抽取技術(shù)相關(guān)。已有技術(shù)通常根據(jù)不同信息來源的信息組織特點(diǎn)分別設(shè)計專用的采集方法和信息抽取方法。在采集方法中通常使用正則表達(dá)式來約束要抓取的網(wǎng)頁的鏈接范圍;在信息抽取方法中通常使用XPath(XML Path Language,XML 路徑語言)從網(wǎng)頁中抽取結(jié)構(gòu)化信息。面對大規(guī)模異構(gòu)網(wǎng)頁,僅使用某一種方法很難獲得高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)。
隨著業(yè)務(wù)與潮流的發(fā)展,網(wǎng)站通常是不斷變化的,所以采集模板、提取模板都需要及時進(jìn)行失效檢查,從而保證上層系統(tǒng)能夠持續(xù)獲取到高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)。但網(wǎng)站的變化是不會主動對外通知的,如何在第一時間發(fā)現(xiàn)模板的失效并快速配置新模板是業(yè)界難題。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院計算技術(shù)研究所,未經(jīng)中國科學(xué)院計算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811637397.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





