日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法和系統(tǒng)有效

專利信息
申請?zhí)枺?/td> 202010028465.3 申請日: 2020-01-11
公開(公告)號: CN111259220B 公開(公告)日: 2021-03-02
發(fā)明(設(shè)計)人: 羅水芳;邵州華;樓未吉 申請(專利權(quán))人: 杭州拾貝知識產(chǎn)權(quán)服務(wù)有限公司
主分類號: G06F16/951 分類號: G06F16/951;G06F16/955
代理公司: 廈門福貝知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 35235 代理人: 陳遠(yuǎn)洋
地址: 310000 浙江省杭州市江干區(qū)*** 國省代碼: 浙江;33
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 一種 基于 數(shù)據(jù) 采集 方法 系統(tǒng)
【權(quán)利要求書】:

1.一種基于大數(shù)據(jù)的數(shù)據(jù)采集方法,其特征在于,包括以下步驟:

S1:利用網(wǎng)絡(luò)爬蟲抓取待采集的數(shù)據(jù)源的URL集合,獲取所述URL對應(yīng)的網(wǎng)頁;

S2:基于PageRank算法與HITS算法分別計算所述網(wǎng)頁的評分,并對計算結(jié)果進(jìn)行加權(quán),獲得所述網(wǎng)頁的總價值分并按所述總價值分排序;

S3:響應(yīng)于所述總價值分大于預(yù)定的第一閾值,按所述網(wǎng)頁的所述總價值分的優(yōu)先級解析并獲取所述網(wǎng)頁中的圖片和/或文字,基于文本信息抽取方法獲取所述網(wǎng)頁中包含的關(guān)鍵詞;

S4:計算所述關(guān)鍵詞與所述關(guān)鍵詞對應(yīng)的網(wǎng)頁的相關(guān)度,并基于所述相關(guān)度向共識節(jié)點發(fā)送共識請求,響應(yīng)于所述相關(guān)度大于預(yù)設(shè)的第二閾值且共識程度大于預(yù)設(shè)的第三閾值,在區(qū)塊鏈的分布式網(wǎng)絡(luò)中多個共識節(jié)點分別對所述關(guān)鍵詞進(jìn)行不同的相關(guān)度運算,基于拜占庭容錯共識機制,當(dāng)所述共識節(jié)點對所述關(guān)鍵詞計算的所述相關(guān)度大于所述第二閾值的共識結(jié)果超過三分之二時,達(dá)成共識并將所述關(guān)鍵詞寫入所述區(qū)塊鏈中,所述網(wǎng)頁存儲至設(shè)置于所述區(qū)塊鏈的節(jié)點上的數(shù)據(jù)庫中,并建立所述網(wǎng)頁與所述關(guān)鍵詞映射關(guān)系。

2.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)的數(shù)據(jù)采集方法,其特征在于,所述步驟S1中還包括利用布隆過濾器對所述URL去重。

3.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)的數(shù)據(jù)采集方法,其特征在于,所述步驟S2中PageRank算法的計算公式具體為:

其中,PRj表示第j個網(wǎng)頁的PageRank值、N表示網(wǎng)頁數(shù)、Ii,j是零一變量,若網(wǎng)頁i引用了網(wǎng)頁j,則其值為1,反之為0、ni表示網(wǎng)頁i中鏈向其它頁面的鏈接數(shù)量、d為衰減因子;HITS算法的計算公式具體為:

其中,網(wǎng)頁i的權(quán)威度Authority值為Ai,中心度Hub值為Hi,E表示網(wǎng)頁j指向網(wǎng)頁i的鏈接,所述PageRank算法和所述HITS算法的權(quán)重值相同且均為50%。

4.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)的數(shù)據(jù)采集方法,其特征在于,所述步驟S3中的文本信息抽取方法包括基于語言規(guī)則模板的信息抽取方法、基于統(tǒng)計方法的信息抽取方法、基于統(tǒng)計機器學(xué)習(xí)的信息抽取方法和基于圖的信息抽取方法。

5.根據(jù)權(quán)利要求4所述的基于大數(shù)據(jù)的數(shù)據(jù)采集方法,其特征在于,所述步驟S3中所述關(guān)鍵詞的獲取方式具體為:利用所述基于語言規(guī)則模板的信息抽取方法、所述基于統(tǒng)計方法的信息抽取方法、所述基于統(tǒng)計機器學(xué)習(xí)的信息抽取方法和所述基于圖的信息抽取方法分別確定所述網(wǎng)頁的關(guān)鍵詞,并將結(jié)果相同的關(guān)鍵詞確定為所述網(wǎng)頁的關(guān)鍵詞,所述基于統(tǒng)計方法的信息抽取方法包括IF-IDF特征計算方法和KF-IDF特征計算方法。

6.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)的數(shù)據(jù)采集方法,其特征在于,所述數(shù)據(jù)庫包括Redis數(shù)據(jù)庫、MongoDB數(shù)據(jù)庫和分布式文件存儲系統(tǒng)HDFS中的一個或組合,所述步驟S4還包括將所述網(wǎng)頁、所述相關(guān)度、所述總價值分及其排序結(jié)果存儲至所述數(shù)據(jù)庫中。

7.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)的數(shù)據(jù)采集方法,其特征在于,所述步驟S4的相關(guān)度的具體計算方式為:

其中,Rn=TFtn*TRtn,TFtn為詞項t在當(dāng)前文本中的詞項頻率,TRtn表示t在當(dāng)前關(guān)鍵詞集合中的權(quán)重,n為關(guān)鍵詞個數(shù)。

8.一種計算機可讀存儲介質(zhì),其上存儲有一或多個計算機程序,其特征在于,該一或多個計算機程序被計算機處理器執(zhí)行時實施權(quán)利要求1至7中任一項所述的方法。

9.一種基于大數(shù)據(jù)的數(shù)據(jù)采集系統(tǒng),其特征在于,所述系統(tǒng)包括:

網(wǎng)頁獲取單元:配置用于利用網(wǎng)絡(luò)爬蟲抓取待采集的數(shù)據(jù)源的URL鏈接集合,獲取所述URL對應(yīng)的網(wǎng)頁;

評估單元:配置用于基于PageRank算法與HITS算法分別計算所述網(wǎng)頁的評分,并對計算結(jié)果進(jìn)行加權(quán),獲得所述網(wǎng)頁的總價值分并按所述總價值分排序;

文本識別單元:配置用于響應(yīng)于所述總價值分大于預(yù)定的第一閾值,按所述網(wǎng)頁的所述總價值分的優(yōu)先級解析并獲取所述網(wǎng)頁中的圖片和/或文字,基于文本信息抽取方法獲取所述網(wǎng)頁中包含的關(guān)鍵詞;

數(shù)據(jù)映射單元:配置用于計算所述關(guān)鍵詞與所述關(guān)鍵詞對應(yīng)的網(wǎng)頁的相關(guān)度,并基于所述相關(guān)度向共識節(jié)點發(fā)送共識請求,響應(yīng)于所述相關(guān)度大于預(yù)設(shè)的第二閾值且共識程度大于預(yù)設(shè)的第三閾值,在區(qū)塊鏈的分布式網(wǎng)絡(luò)中多個共識節(jié)點分別對所述關(guān)鍵詞進(jìn)行不同的相關(guān)度運算,基于拜占庭容錯共識機制,當(dāng)所述共識節(jié)點對所述關(guān)鍵詞計算的所述相關(guān)度大于所述第二閾值的共識結(jié)果超過三分之二時,達(dá)成共識并將所述關(guān)鍵詞寫入所述區(qū)塊鏈中,所述網(wǎng)頁存儲至設(shè)置于所述區(qū)塊鏈的節(jié)點上的數(shù)據(jù)庫中,并建立所述網(wǎng)頁與所述關(guān)鍵詞映射關(guān)系。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會員可以免費下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州拾貝知識產(chǎn)權(quán)服務(wù)有限公司,未經(jīng)杭州拾貝知識產(chǎn)權(quán)服務(wù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202010028465.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實用新型專利、外觀設(shè)計專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進(jìn)行下載,點擊【登陸】 【注冊】

關(guān)于我們 尋求報道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产日韩欧美专区| 久久久久久中文字幕| 日本丰满岳妇伦3在线观看| 996久久国产精品线观看| 日本精品一区二区三区在线观看视频 | 欧美三级午夜理伦三级老人| 国产精品一二二区| 欧美网站一区二区三区| 亚洲国产99| 91日韩一区二区三区| 国产一区在线视频播放| 日韩精品少妇一区二区在线看| 国产在线精品一区二区在线播放| 国产高清在线观看一区| 精品videossexfreeohdbbw| 欧美日韩偷拍一区| 91看片淫黄大片91| 视频二区一区国产精品天天| 国产精品69av| 久久99国产视频| 中文字幕在线一二三区| 国产精品剧情一区二区三区| 欧美精品久久一区二区| 国产又黄又硬又湿又黄| 性欧美1819sex性高播放| 狠狠色狠狠色很很综合很久久| 激情久久影院| 满春阁精品av在线导航| 日韩欧美高清一区| 欧美高清极品videossex| 精品国产一级| 欧美一区二区三区黄| 亚洲欧美日韩视频一区| 亚洲va国产| 亚洲精品卡一| 一区二区三区日韩精品| 欧美一区二区三区国产精品| 电影午夜精品一区二区三区| 91精品福利观看| 国产乱码一区二区| 中文丰满岳乱妇在线观看| 国产丝袜一区二区三区免费视频| 久久国产精品首页| 欧美午夜羞羞羞免费视频app| 国产精品5区| 久久伊人色综合| 免费高潮又黄又色又爽视频| 国产在线一二区| 日韩精品人成在线播放| 欧美乱码精品一区二区三| 亚欧精品在线观看| 日韩亚洲精品在线| 亚洲高清久久久| 国产99久久久精品视频| 日韩欧美高清一区| 精品国产一区二| 久久亚洲精品国产日韩高潮| 色婷婷精品久久二区二区蜜臂av| 一级女性全黄久久生活片免费 | 免费a级毛片18以上观看精品| 久久精品com| 亚洲欧美日韩另类精品一区二区三区| 国产精品一区二区麻豆| 国产一级不卡毛片| 国产精品偷伦一区二区| 国产在线拍揄自揄拍| 一色桃子av大全在线播放| 欧美福利三区| 国产原创一区二区| 国产精品偷拍| 午夜伦理片在线观看| 午夜电影院理论片做爰| 国产精品九九九九九九九| 欧美日韩精品不卡一区二区三区| 偷拍久久精品视频| 99久久www免费| 26uuu亚洲国产精品| 欧美日韩一二三四区| 色一情一乱一乱一区99av白浆| _97夜夜澡人人爽人人| 欧美一级日韩一级| 国产视频一区二区在线| 国产88久久久国产精品免费二区| 日韩av在线网| 亚洲国产精品一区二区久久hs | 狠狠色狠狠色综合久久第一次| 色噜噜狠狠一区二区| 国产91在| 日韩精品一区二区三区免费观看 | 精品99免费视频| 亚洲三区二区一区| 狠狠躁夜夜躁2020| 精品香蕉一区二区三区| 色婷婷精品久久二区二区蜜臂av| 日本中文字幕一区| 亚洲一级中文字幕| 国产乱人乱精一区二视频国产精品 | 一区二区三区欧美日韩| 日韩av视屏在线观看| 综合在线一区| 丝袜诱惑一区二区三区| 精品午夜电影| 欧美一区二区三区免费观看视频| 亚洲欧洲精品一区二区三区不卡| 19videosex性欧美69| 国产午夜精品一区二区三区在线观看| 电影91久久久| 狠狠色狠狠色综合久久第一次| 欧美日韩久久一区二区| 久久密av| 日韩精品久久久久久久的张开腿让| 国产乱人乱精一区二视频国产精品| 一区二区中文字幕在线观看| 精品国产九九九| 国产无遮挡又黄又爽又色视频| 久久久99精品国产一区二区三区| 国产亚洲久久| 欧美高清视频一区二区三区| 精品国产免费一区二区三区| 91亚洲欧美强伦三区麻豆| 亚洲精品一区,精品二区| 国产在线精品区| 国产午夜精品免费一区二区三区视频 | 欧美一区二区三区激情在线视频| 中文字幕一区二区三区免费| 中文字幕日本精品一区二区三区| 99日韩精品视频| av国产精品毛片一区二区小说| 中文字幕在线一区二区三区 | 日韩一级片免费视频| 久久亚洲精品国产日韩高潮| 欧美精品免费看| 欧美日韩一区二区三区69堂| 91精品视频一区二区| 免费a一毛片| 岛国精品一区二区| 私人影院av| 夜色av网| 99久久久国产精品免费调教网站| 岛国精品一区二区| 国产偷自视频区视频一区二区| 大bbw大bbw超大bbw| 国产麻豆一区二区三区精品| 国产一区二区三区中文字幕| 亚洲精品日本无v一区| 精品国产一区二区三区免费| 狠狠色噜噜狠狠狠狠2018| 午夜剧场一级片| 一区二区三区欧美在线| 天天干狠狠插| 最新国产一区二区| 一区二区午夜| 久久噜噜少妇网站| 17c国产精品一区二区| 一区二区久久精品| 国产一区二区资源| 国产一区二区电影在线观看| 午夜生活理论片| 欧美日韩乱码| 亚洲一区欧美| 浪潮av色| 国产区一区| 日韩亚洲精品在线| 国久久久久久| 日本高清二区| 一区二区国产精品| 国产欧美日韩精品一区二区图片| 午夜wwwww| 国产在线一二区| 日本高清一二三区| 99精品少妇| 欧美日韩亚洲另类| 久久er精品视频| 97人人模人人爽人人喊小说 | aaaaa国产欧美一区二区| 久久福利免费视频| 一区二区免费播放| 97人人模人人爽视频一区二区| 国产91精品一区二区麻豆亚洲| 精品婷婷伊人一区三区三| 国产欧美性| 三上悠亚亚洲精品一区二区 | 久久亚洲精品国产日韩高潮| 国产欧美一区二区三区在线播放| 精品国产一区二区三区在线| 久久九九亚洲| 亚洲欧洲一区二区| 国产免费区| 91嫩草入口| 国产欧美一区二区精品性色超碰| 久久激情综合网| 97人人澡人人添人人爽超碰| 精品无人国产偷自产在线| 国产精品国产三级国产专区52 | 久久一级精品| 九九国产精品视频| 国产精品一二三四五区| 国产精品96久久久久久久| 国产精品丝袜综合区另类| 丰满少妇高潮惨叫久久久一| 久久国产欧美一区二区免费| 欧美午夜精品一区二区三区| 毛片大全免费看| 一区二区三区电影在线观看| 强制中出し~大桥未久10在线播放| 国产精品一区亚洲二区日本三区| 99久久国产免费| 少妇又紧又色又爽又刺激视频网站| 午夜av电影院| 国产二区精品视频| 午夜诱惑影院| 久久一区欧美| 国产理论一区二区三区| 欧美一区二区三区免费在线观看| 国产一区二区电影| 国产婷婷一区二区三区久久| 亚洲精品乱码久久久久久按摩| 色婷婷噜噜久久国产精品12p| 精品国产一区二区三区国产馆杂枝| 日韩精品一区中文字幕| 亚洲福利视频二区| 国产日韩欧美不卡| 狠狠色噜噜狼狼狼色综合久| 日韩精品一区二区不卡| 亚洲精品日韩精品| 国偷自产一区二区三区在线观看| 久久国产精品-国产精品| 亚洲欧美一区二区三区1000 | 国产日韩欧美第一页| 奇米色欧美一区二区三区| 亚洲精品日韩精品| 大bbw大bbw巨大bbw看看| 欧美在线视频一区二区三区| 国产精品无码专区在线观看| 国产高清精品一区二区| 国产88在线观看入口| 国产精品日产欧美久久久久| 欧美日韩精品中文字幕| 强制中出し~大桥未久4| 午夜看片网址| 在线精品一区二区| 99国产精品欧美久久久久的广告| 波多野结衣女教师电影| 国产精欧美一区二区三区久久| 欧美日韩卡一卡二| 性国产日韩欧美一区二区在线|