[發(fā)明專利]一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010028465.3 | 申請日: | 2020-01-11 |
| 公開(公告)號: | CN111259220B | 公開(公告)日: | 2021-03-02 |
| 發(fā)明(設(shè)計)人: | 羅水芳;邵州華;樓未吉 | 申請(專利權(quán))人: | 杭州拾貝知識產(chǎn)權(quán)服務(wù)有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955 |
| 代理公司: | 廈門福貝知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 35235 | 代理人: | 陳遠(yuǎn)洋 |
| 地址: | 310000 浙江省杭州市江干區(qū)*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)據(jù) 采集 方法 系統(tǒng) | ||
1.一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法,其特征在于,包括以下步驟:
S1:利用網(wǎng)絡(luò)爬蟲抓取待采集的數(shù)據(jù)源的URL集合,獲取所述URL對應(yīng)的網(wǎng)頁;
S2:基于PageRank算法與HITS算法分別計算所述網(wǎng)頁的評分,并對計算結(jié)果進(jìn)行加權(quán),獲得所述網(wǎng)頁的總價值分并按所述總價值分排序;
S3:響應(yīng)于所述總價值分大于預(yù)定的第一閾值,按所述網(wǎng)頁的所述總價值分的優(yōu)先級解析并獲取所述網(wǎng)頁中的圖片和/或文字,基于文本信息抽取方法獲取所述網(wǎng)頁中包含的關(guān)鍵詞;
S4:計算所述關(guān)鍵詞與所述關(guān)鍵詞對應(yīng)的網(wǎng)頁的相關(guān)度,并基于所述相關(guān)度向共識節(jié)點發(fā)送共識請求,響應(yīng)于所述相關(guān)度大于預(yù)設(shè)的第二閾值且共識程度大于預(yù)設(shè)的第三閾值,在區(qū)塊鏈的分布式網(wǎng)絡(luò)中多個共識節(jié)點分別對所述關(guān)鍵詞進(jìn)行不同的相關(guān)度運算,基于拜占庭容錯共識機制,當(dāng)所述共識節(jié)點對所述關(guān)鍵詞計算的所述相關(guān)度大于所述第二閾值的共識結(jié)果超過三分之二時,達(dá)成共識并將所述關(guān)鍵詞寫入所述區(qū)塊鏈中,所述網(wǎng)頁存儲至設(shè)置于所述區(qū)塊鏈的節(jié)點上的數(shù)據(jù)庫中,并建立所述網(wǎng)頁與所述關(guān)鍵詞映射關(guān)系。
2.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)的數(shù)據(jù)采集方法,其特征在于,所述步驟S1中還包括利用布隆過濾器對所述URL去重。
3.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)的數(shù)據(jù)采集方法,其特征在于,所述步驟S2中PageRank算法的計算公式具體為:
其中,PRj表示第j個網(wǎng)頁的PageRank值、N表示網(wǎng)頁數(shù)、Ii,j是零一變量,若網(wǎng)頁i引用了網(wǎng)頁j,則其值為1,反之為0、ni表示網(wǎng)頁i中鏈向其它頁面的鏈接數(shù)量、d為衰減因子;HITS算法的計算公式具體為:
其中,網(wǎng)頁i的權(quán)威度Authority值為Ai,中心度Hub值為Hi,E表示網(wǎng)頁j指向網(wǎng)頁i的鏈接,所述PageRank算法和所述HITS算法的權(quán)重值相同且均為50%。
4.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)的數(shù)據(jù)采集方法,其特征在于,所述步驟S3中的文本信息抽取方法包括基于語言規(guī)則模板的信息抽取方法、基于統(tǒng)計方法的信息抽取方法、基于統(tǒng)計機器學(xué)習(xí)的信息抽取方法和基于圖的信息抽取方法。
5.根據(jù)權(quán)利要求4所述的基于大數(shù)據(jù)的數(shù)據(jù)采集方法,其特征在于,所述步驟S3中所述關(guān)鍵詞的獲取方式具體為:利用所述基于語言規(guī)則模板的信息抽取方法、所述基于統(tǒng)計方法的信息抽取方法、所述基于統(tǒng)計機器學(xué)習(xí)的信息抽取方法和所述基于圖的信息抽取方法分別確定所述網(wǎng)頁的關(guān)鍵詞,并將結(jié)果相同的關(guān)鍵詞確定為所述網(wǎng)頁的關(guān)鍵詞,所述基于統(tǒng)計方法的信息抽取方法包括IF-IDF特征計算方法和KF-IDF特征計算方法。
6.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)的數(shù)據(jù)采集方法,其特征在于,所述數(shù)據(jù)庫包括Redis數(shù)據(jù)庫、MongoDB數(shù)據(jù)庫和分布式文件存儲系統(tǒng)HDFS中的一個或組合,所述步驟S4還包括將所述網(wǎng)頁、所述相關(guān)度、所述總價值分及其排序結(jié)果存儲至所述數(shù)據(jù)庫中。
7.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)的數(shù)據(jù)采集方法,其特征在于,所述步驟S4的相關(guān)度的具體計算方式為:
其中,Rn=TFtn*TRtn,TFtn為詞項t在當(dāng)前文本中的詞項頻率,TRtn表示t在當(dāng)前關(guān)鍵詞集合中的權(quán)重,n為關(guān)鍵詞個數(shù)。
8.一種計算機可讀存儲介質(zhì),其上存儲有一或多個計算機程序,其特征在于,該一或多個計算機程序被計算機處理器執(zhí)行時實施權(quán)利要求1至7中任一項所述的方法。
9.一種基于大數(shù)據(jù)的數(shù)據(jù)采集系統(tǒng),其特征在于,所述系統(tǒng)包括:
網(wǎng)頁獲取單元:配置用于利用網(wǎng)絡(luò)爬蟲抓取待采集的數(shù)據(jù)源的URL鏈接集合,獲取所述URL對應(yīng)的網(wǎng)頁;
評估單元:配置用于基于PageRank算法與HITS算法分別計算所述網(wǎng)頁的評分,并對計算結(jié)果進(jìn)行加權(quán),獲得所述網(wǎng)頁的總價值分并按所述總價值分排序;
文本識別單元:配置用于響應(yīng)于所述總價值分大于預(yù)定的第一閾值,按所述網(wǎng)頁的所述總價值分的優(yōu)先級解析并獲取所述網(wǎng)頁中的圖片和/或文字,基于文本信息抽取方法獲取所述網(wǎng)頁中包含的關(guān)鍵詞;
數(shù)據(jù)映射單元:配置用于計算所述關(guān)鍵詞與所述關(guān)鍵詞對應(yīng)的網(wǎng)頁的相關(guān)度,并基于所述相關(guān)度向共識節(jié)點發(fā)送共識請求,響應(yīng)于所述相關(guān)度大于預(yù)設(shè)的第二閾值且共識程度大于預(yù)設(shè)的第三閾值,在區(qū)塊鏈的分布式網(wǎng)絡(luò)中多個共識節(jié)點分別對所述關(guān)鍵詞進(jìn)行不同的相關(guān)度運算,基于拜占庭容錯共識機制,當(dāng)所述共識節(jié)點對所述關(guān)鍵詞計算的所述相關(guān)度大于所述第二閾值的共識結(jié)果超過三分之二時,達(dá)成共識并將所述關(guān)鍵詞寫入所述區(qū)塊鏈中,所述網(wǎng)頁存儲至設(shè)置于所述區(qū)塊鏈的節(jié)點上的數(shù)據(jù)庫中,并建立所述網(wǎng)頁與所述關(guān)鍵詞映射關(guān)系。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州拾貝知識產(chǎn)權(quán)服務(wù)有限公司,未經(jīng)杭州拾貝知識產(chǎn)權(quán)服務(wù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010028465.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





