[發(fā)明專利]一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202010028465.3 | 申請(qǐng)日: | 2020-01-11 |
| 公開(公告)號(hào): | CN111259220B | 公開(公告)日: | 2021-03-02 |
| 發(fā)明(設(shè)計(jì))人: | 羅水芳;邵州華;樓未吉 | 申請(qǐng)(專利權(quán))人: | 杭州拾貝知識(shí)產(chǎn)權(quán)服務(wù)有限公司 |
| 主分類號(hào): | G06F16/951 | 分類號(hào): | G06F16/951;G06F16/955 |
| 代理公司: | 廈門福貝知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 35235 | 代理人: | 陳遠(yuǎn)洋 |
| 地址: | 310000 浙江省杭州市江干區(qū)*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)據(jù) 采集 方法 系統(tǒng) | ||
本發(fā)明給出了一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng),包括利用網(wǎng)絡(luò)爬蟲抓取待采集的數(shù)據(jù)源的URL集合,獲取URL對(duì)應(yīng)的網(wǎng)頁(yè);基于PageRank算法與HITS算法分別計(jì)算網(wǎng)頁(yè)的評(píng)分,獲得網(wǎng)頁(yè)的總價(jià)值分并按總價(jià)值分排序;按網(wǎng)頁(yè)的總價(jià)值分的優(yōu)先級(jí)解析并獲取網(wǎng)頁(yè)中的圖片和/或文字,獲取網(wǎng)頁(yè)中包含的關(guān)鍵詞;計(jì)算關(guān)鍵詞與關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁(yè)的相關(guān)度,并基于相關(guān)度向共識(shí)節(jié)點(diǎn)發(fā)送共識(shí)請(qǐng)求,響應(yīng)于相關(guān)度大于預(yù)設(shè)的第二閾值且共識(shí)程度大于預(yù)設(shè)的第三閾值,將關(guān)鍵詞存儲(chǔ)至對(duì)應(yīng)類別的區(qū)塊鏈中,網(wǎng)頁(yè)存儲(chǔ)至設(shè)置于區(qū)塊鏈的節(jié)點(diǎn)上的數(shù)據(jù)庫(kù)中,并建立網(wǎng)頁(yè)與關(guān)鍵詞映射關(guān)系。利用該方法建立關(guān)鍵詞與網(wǎng)頁(yè)的映射,采集到的數(shù)據(jù)更加的精準(zhǔn)且更加具有關(guān)聯(lián)性和共識(shí)性。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)采集領(lǐng)域,尤其是一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng)。
背景技術(shù)
隨著科學(xué)、技術(shù)和工程的迅猛發(fā)展,近20年來(lái),許多領(lǐng)域(如光學(xué)觀測(cè)、光學(xué)監(jiān)控、健康醫(yī)護(hù)、傳感器、用戶數(shù)據(jù)、互聯(lián)網(wǎng)和金融公司以及供應(yīng)鏈系統(tǒng))都產(chǎn)生了海量的數(shù)據(jù)(更恰當(dāng)?shù)拿枋龌蛟S是“無(wú)限”的數(shù)據(jù),例如,在光學(xué)觀測(cè)和監(jiān)控等應(yīng)用中,數(shù)據(jù)都是源源不斷而來(lái)的,形成了“數(shù)據(jù)災(zāi)難”),大數(shù)據(jù)的概念也隨之再次引起重視。與傳統(tǒng)的數(shù)據(jù)相比,除了大容量等表象特點(diǎn),大數(shù)據(jù)還具有其他獨(dú)特的特點(diǎn),例如大數(shù)據(jù)通常是無(wú)結(jié)構(gòu)的,并且需要得到實(shí)時(shí)分析,因此大數(shù)據(jù)的發(fā)展需要全新的體系架構(gòu),用于處理大規(guī)模數(shù)據(jù)的獲取、傳輸、存儲(chǔ)和分析。
大數(shù)據(jù)的概念自2008年提出以來(lái)就受到各行各業(yè)的重視。經(jīng)過(guò)近10年的發(fā)展,大數(shù)據(jù)已經(jīng)從一個(gè)模糊的概念逐漸演變?yōu)閷?shí)際生產(chǎn)力。尤其在金融預(yù)警、輿情監(jiān)控以及互聯(lián)網(wǎng)用戶偏好分析等以數(shù)據(jù)為中心的情報(bào)分析領(lǐng)域,其日常的情報(bào)活動(dòng)產(chǎn)生的海量數(shù)據(jù),蘊(yùn)含著該領(lǐng)域的特殊活動(dòng)規(guī)律,這些規(guī)律可用于分析相應(yīng)領(lǐng)域的數(shù)據(jù)—信息—情報(bào)的演化過(guò)程中,促進(jìn)支撐決策的情報(bào)產(chǎn)生。因此,利用海量數(shù)據(jù)挖掘方法,對(duì)歷史數(shù)據(jù)和信息進(jìn)行分析,并以此指導(dǎo)未來(lái)的決策活動(dòng),已逐漸成為目前各應(yīng)用領(lǐng)域情報(bào)學(xué)研究和工作的重點(diǎn)之一。然而,目前大數(shù)據(jù)雖然已步入實(shí)際應(yīng)用階段,但情報(bào)學(xué)界對(duì)這一概念的系統(tǒng)性的認(rèn)識(shí)其實(shí)并不充分。其具體的定義、構(gòu)成、核心的方法與技術(shù)等在不同的應(yīng)用場(chǎng)合之間并不確定,還沒(méi)有形成共識(shí)。
本質(zhì)上,大數(shù)據(jù)不僅意味著數(shù)據(jù)的大容量,還體現(xiàn)了一些區(qū)別于“海量數(shù)據(jù)”和“非常大的數(shù)據(jù)”的特點(diǎn)。隨著大數(shù)據(jù)的流行,大數(shù)據(jù)的定義呈現(xiàn)多樣化的趨勢(shì),達(dá)成共識(shí)非常困難。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中大數(shù)據(jù)的多樣化導(dǎo)致數(shù)據(jù)的采集困難、效率低、資源占用率過(guò)高以及數(shù)據(jù)的采集難以達(dá)成共識(shí)的技術(shù)問(wèn)題,本發(fā)明提出了一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng),用以解決大數(shù)據(jù)的采集困難、復(fù)雜以及難以達(dá)成共識(shí)等問(wèn)題。
在一個(gè)方面,本發(fā)明提出了一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法,包括以下步驟:
S1:利用網(wǎng)絡(luò)爬蟲抓取待采集的數(shù)據(jù)源的URL集合,獲取URL對(duì)應(yīng)的網(wǎng)頁(yè);
S2:基于PageRank算法與HITS算法分別計(jì)算網(wǎng)頁(yè)的評(píng)分,并對(duì)計(jì)算結(jié)果進(jìn)行加權(quán),獲得網(wǎng)頁(yè)的總價(jià)值分并按總價(jià)值分排序;
S3:響應(yīng)于總價(jià)值分大于預(yù)定的第一閾值,按網(wǎng)頁(yè)的總價(jià)值分的優(yōu)先級(jí)解析并獲取網(wǎng)頁(yè)中的圖片和/或文字,基于文本信息抽取方法獲取網(wǎng)頁(yè)中包含的關(guān)鍵詞;
S4:計(jì)算關(guān)鍵詞與關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁(yè)的相關(guān)度,并基于相關(guān)度向共識(shí)節(jié)點(diǎn)發(fā)送共識(shí)請(qǐng)求,響應(yīng)于相關(guān)度大于預(yù)設(shè)的第二閾值且共識(shí)程度大于預(yù)設(shè)的第三閾值,將關(guān)鍵詞存儲(chǔ)至對(duì)應(yīng)類別的區(qū)塊鏈中,網(wǎng)頁(yè)存儲(chǔ)至設(shè)置于區(qū)塊鏈的節(jié)點(diǎn)上的數(shù)據(jù)庫(kù)中,并建立網(wǎng)頁(yè)與關(guān)鍵詞映射關(guān)系。
優(yōu)選的,步驟S1中還包括利用布隆過(guò)濾器對(duì)URL去重。布隆過(guò)濾器在空間和時(shí)間方面都有巨大的優(yōu)勢(shì),布隆過(guò)濾器存儲(chǔ)空間和插入/查詢時(shí)間都是常數(shù),Hash函數(shù)相互之間沒(méi)有關(guān)系,方便由硬件并行實(shí)現(xiàn),并且布隆過(guò)濾器不需要存儲(chǔ)元素本身,在某些對(duì)保密要求非常嚴(yán)格的場(chǎng)合有優(yōu)勢(shì)。
優(yōu)選的,步驟S2中PageRank算法的計(jì)算公式具體為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州拾貝知識(shí)產(chǎn)權(quán)服務(wù)有限公司,未經(jīng)杭州拾貝知識(shí)產(chǎn)權(quán)服務(wù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010028465.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





