日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取方法及其系統(tǒng)無效

專利信息
申請?zhí)枺?/td> 201210421574.7 申請日: 2012-10-29
公開(公告)號: CN102937988A 公開(公告)日: 2013-02-20
發(fā)明(設(shè)計)人: 楊睿塵 申請(專利權(quán))人: 北京騰逸科技發(fā)展有限公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 代理人: 張大威
地址: 100086 北京市海淀區(qū)青*** 國省代碼: 北京;11
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 并行 化分 互聯(lián)網(wǎng) 數(shù)據(jù) 抽取 方法 及其 系統(tǒng)
【說明書】:

技術(shù)領(lǐng)域

發(fā)明涉及計算機應(yīng)用技術(shù)領(lǐng)域和信息技術(shù)領(lǐng)域,具體涉及一種并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取方法及其系統(tǒng)。

背景技術(shù)

現(xiàn)今,互聯(lián)網(wǎng)的發(fā)展日新月異,中國的網(wǎng)民數(shù)量也在呈爆發(fā)式增長?;ヂ?lián)網(wǎng)已逐步取代傳統(tǒng)的媒體(包括報紙、書籍、廣播、電視等等),變成人們獲取和發(fā)布信息的主要來源。同時,由于互聯(lián)網(wǎng)自由開放、使用簡單、傳播速度快、使用者眾多的特點,使得互聯(lián)網(wǎng)信息能夠迅速的傳播并造成影響。正是由于互聯(lián)網(wǎng)扮演的角色越來越重要,所以各種針對互聯(lián)網(wǎng)信息的研究也蓬勃發(fā)展起來。為了進行互聯(lián)網(wǎng)信息的研究,首先需要將海量的格式各異的互聯(lián)網(wǎng)網(wǎng)頁信息抽取處理,并進行統(tǒng)一的格式轉(zhuǎn)換,以方便后期分析處理;其次,需要應(yīng)用高質(zhì)量和高效率抽取技術(shù)。正是基于這一迫切需求,我們開發(fā)了并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取系統(tǒng)。

發(fā)明內(nèi)容

本發(fā)明旨在至少在一定程度上解決上述技術(shù)問題之一或至少提供一種有用的商業(yè)選擇。為此,本發(fā)明的一個目的在于提出一種具有高質(zhì)高效的并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取方法及其系統(tǒng)。

本發(fā)明的一方面提出一種并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取方法,包括步驟:獲取爬取得到的網(wǎng)頁序列,依次獲取網(wǎng)頁配置信息并對網(wǎng)頁進行數(shù)據(jù)抽??;對數(shù)據(jù)抽取得到的內(nèi)容進行編碼轉(zhuǎn)換;對編碼轉(zhuǎn)換后的內(nèi)容進行數(shù)據(jù)清洗;以及判斷數(shù)據(jù)清洗后的內(nèi)容是否信息重復(fù),如不重復(fù),存入數(shù)據(jù)庫。

在本發(fā)明的方法的一個實施例中,所述數(shù)據(jù)抽取是以并行化分布式的模式進行。

在本發(fā)明的方法的一個實施例中,所述編碼轉(zhuǎn)換包括:將數(shù)值型信息轉(zhuǎn)換為統(tǒng)一長度的整數(shù)或者浮點數(shù);將所有的時間信息轉(zhuǎn)化為統(tǒng)一格式的絕對時間;以及將單位信息轉(zhuǎn)化為統(tǒng)一的數(shù)據(jù)單位和度量衡。

在本發(fā)明的方法的一個實施例中,所述數(shù)據(jù)清洗包括:針對正文的數(shù)據(jù)清洗和針對評論的數(shù)據(jù)清洗。

本發(fā)明的另一方面提出一種并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取系統(tǒng),包括:數(shù)據(jù)抽取模塊,所述數(shù)據(jù)抽取模塊用于獲取爬取得到的網(wǎng)頁序列,依次獲取網(wǎng)頁配置信息并對網(wǎng)頁進行數(shù)據(jù)抽取;編碼轉(zhuǎn)換模塊,所述編碼轉(zhuǎn)換模塊用于對數(shù)據(jù)抽取得到的內(nèi)容進行編碼轉(zhuǎn)換;數(shù)據(jù)清洗模塊,所述數(shù)據(jù)清洗模塊用于對編碼轉(zhuǎn)換后的內(nèi)容進行數(shù)據(jù)清洗;判斷重復(fù)模塊,所述判斷重復(fù)模塊用于判斷數(shù)據(jù)清洗后的內(nèi)容是否信息重復(fù);以及存儲模塊,如果所述判斷重復(fù)模塊的結(jié)果為不重復(fù),將數(shù)據(jù)清洗后的內(nèi)容存入數(shù)據(jù)庫。

在本發(fā)明的系統(tǒng)的一個實施例中,所述數(shù)據(jù)抽取模塊為并行化分布式結(jié)構(gòu)。

在本發(fā)明的系統(tǒng)的一個實施例中,所述編碼轉(zhuǎn)換模塊包括:數(shù)值轉(zhuǎn)換子模塊,所述數(shù)值轉(zhuǎn)換子模塊用于將數(shù)值型信息轉(zhuǎn)換為統(tǒng)一長度的整數(shù)或者浮點數(shù);時間轉(zhuǎn)換子模塊,所述時間轉(zhuǎn)換子模塊用于將所有的時間信息轉(zhuǎn)化為統(tǒng)一格式的絕對時間;以及單位轉(zhuǎn)換子模塊,所述單位轉(zhuǎn)換子模塊用于將單位信息轉(zhuǎn)化為統(tǒng)一的數(shù)據(jù)單位和度量衡。

在本發(fā)明的系統(tǒng)的一個實施例中,所述數(shù)據(jù)清洗模塊包括:正文數(shù)據(jù)清洗子模塊和評論數(shù)據(jù)清洗子模塊。

首先,本發(fā)明的的方法和系統(tǒng)能夠通過配置的方式自由的擴展需要抽取的目標(biāo)站點,由于采用了并行化和分布式的設(shè)計,使得數(shù)據(jù)抽取的效率和實時性得到了很好的保證。其次,本發(fā)明中采用了抽取數(shù)據(jù)清洗機制,針對抽取數(shù)據(jù)進行過濾凈化,去除其中可能包含的各種非法無意義的內(nèi)容,大大提高了抽取數(shù)據(jù)的有效程度,保證了之后針對抽取數(shù)據(jù)的分析處理的準(zhǔn)確性和真實性。再者,本發(fā)明針對抽取到的數(shù)據(jù)做了統(tǒng)一的數(shù)據(jù)格式轉(zhuǎn)換和字符編碼轉(zhuǎn)換,為最終的程序處理和數(shù)據(jù)存儲提供了很大的便利。因此,本發(fā)明的方法和系統(tǒng)具有高質(zhì)量和高效率的優(yōu)點。

本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。

附圖說明

本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得明顯和容易理解,其中:

圖1是本發(fā)明實施例的并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取方法的流程圖;

圖2是本發(fā)明實施例的并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取系統(tǒng)的結(jié)構(gòu)框圖;

圖3是本發(fā)明實施例的并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取方法的詳細流程圖;和

圖4是本發(fā)明實施例的并行化分布式特征的數(shù)據(jù)抽取模塊的結(jié)構(gòu)示意圖。

具體實施方式

下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會員可以免費下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京騰逸科技發(fā)展有限公司,未經(jīng)北京騰逸科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201210421574.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實用新型專利、外觀設(shè)計專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關(guān)于我們 尋求報道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 99爱国产精品| 久久天天躁夜夜躁狠狠躁2022| 国产精品日本一区二区不卡视频| 欧美色图视频一区| 日韩午夜毛片| 国产一级片子| 国产男女乱淫真高清视频免费| 欧美3级在线| 亚洲精品91久久久久久| 国产精品精品视频一区二区三区| 久久国产中文字幕| 91久久国产视频| 国产精品久久久久久久久久软件| 国产日韩欧美精品| 国产极品一区二区三区| 一区二区免费在线观看| 国产精品9区| 国产日韩一区二区三免费| 国产亚洲精品久久久久久网站| 久久一区二区精品视频| 欧美精品xxxxx| 久久第一区| 性生交大片免费看潘金莲| 99国产精品99久久久久| 欧美xxxxxhd| 日本高清一二区| 二区三区视频| 一区二区免费在线观看| 欧美日韩亚洲另类| 国产精品视频免费看人鲁| 久久精品爱爱视频| 国产精品v亚洲精品v日韩精品| 午夜理伦影院| 精品久久香蕉国产线看观看gif| 久久精品视频3| 在线国产精品一区二区| 欧美日韩亚洲另类| 男人的天堂一区二区| 亚洲第一天堂无码专区| 在线国产91| 日韩av在线导航| 久久综合二区| 91超薄丝袜肉丝一区二区| 三上悠亚亚洲精品一区二区| 波多野结衣女教师电影| 中文字幕久久精品一区| 国产精品理人伦一区二区三区| 久久久精品观看| 欧美视屏一区| 欧美国产一区二区在线| 欧美日韩中文字幕一区| 国产清纯白嫩初高生视频在线观看| 欧美3p激情一区二区三区猛视频 | 欧美精品五区| 日本福利一区二区| 在线中文字幕一区| 久久久久国产精品视频| 日韩精品免费一区二区夜夜嗨| 日韩av在线影院| 亚洲在线久久| 色综合久久精品| 日本一二区视频| 日本一区二区三区中文字幕| 国产精品九九九九九九| 欧美一区二区伦理片| 久久精品二| 99久久精品国产系列| 日韩欧美中文字幕一区| 国产一区二区大片| 李采潭无删减版大尺度| 97视频一区| 国产高潮国产高潮久久久91| 欧洲在线一区二区| 精品久久国产视频| 午夜无人区免费网站| 91超薄丝袜肉丝一区二区| 蜜臀久久99静品久久久久久 | 亚洲五码在线| 亚洲欧美国产一区二区三区| 欧美午夜羞羞羞免费视频app | 欧美日韩亚洲国产一区| 国产精品99在线播放| 夜夜躁狠狠躁日日躁2024| 久免费看少妇高潮a级特黄按摩| 欧美日韩国产精品一区二区| 一区二区三区欧美视频| 亚洲欧美日韩国产综合精品二区 | 在线视频不卡一区| 日韩亚洲国产精品| 免费**毛片| 国产精品乱战久久久| 国产69精品久久99不卡解锁版| 国产亚洲精品久久久456| 日韩精品久久一区二区| 欧美日韩一区二区在线播放| 久久精品一二三四| 国产精品高清一区| 销魂美女一区二区| 国产91清纯白嫩初高中在线观看| 精品国产免费久久| 国产亚洲精品精品国产亚洲综合| 午夜毛片电影| 99久久久久久国产精品| 欧美乱妇高清无乱码| 午夜精品一区二区三区在线播放 | 国产乱子伦农村xxxx| 91麻豆精品国产综合久久久久久| 日本黄页在线观看| 自拍偷在线精品自拍偷写真图片| 欧美激情在线一区二区三区| 91亚洲欧美强伦三区麻豆 | 日韩中文字幕在线一区| 国产精品国精产品一二三区| 国产一区www| av中文字幕一区二区| 国产精品天堂网| 亚洲精品人| 日韩精品免费播放| 一级久久久| 日韩午夜电影在线| 91婷婷精品国产综合久久| 91热精品| 久久国产精久久精产国| 91精品国产综合久久国产大片| 色综合欧美亚洲国产| 国产欧美精品一区二区三区-老狼| 91精品资源| 91一区二区三区久久国产乱| 综合在线一区| 夜色av网| 最新国产精品自拍| 国产欧美日韩中文字幕| 国产一区日韩精品| 国产偷国产偷亚洲清高| 国产在线不卡一| 久久国产欧美视频| 亚洲精品国产精品国自产网站按摩| 国产精品日韩高清伦字幕搜索| 久久er精品视频| 中文字幕一区二区三区免费| 日本一区欧美| 日本一二区视频| 亚洲影院久久| 狠狠插影院| 午夜影院啪啪| 亚洲精品日本久久一区二区三区| 国产偷亚洲偷欧美偷精品| 国产高清在线观看一区| 久久九九亚洲| 国产精品久久亚洲7777| 国产日韩精品一区二区| 中文字幕一区一区三区| 国语对白一区二区三区| 日韩一区高清| 国产69精品99久久久久久宅男| 久久综合激情网| 日韩精品中文字幕久久臀| 国产乱对白刺激视频在线观看| 99re热精品视频国产免费| 欧美777精品久久久久网| 久久午夜鲁丝片午夜精品| 欧美日韩国产午夜| 日韩不卡毛片| 亚洲国产欧美一区二区丝袜黑人| 人人玩人人添人人澡97| ass韩国白嫩pics| 在线电影一区二区| 午夜毛片在线看| 国产一区二区视频免费在线观看 | 91丝袜国产在线观看| www.久久精品视频| 一区二区久久精品| 久久91精品国产91久久久 | 日日噜噜夜夜狠狠| 日韩电影在线一区二区三区| 欧美在线视频二区| 欧美日韩亚洲三区| 国产精品欧美久久| 海量av在线| 国产精品一卡二卡在线观看| 国产乱人乱精一区二视频国产精品| 中文字幕一级二级三级| 国产日韩欧美一区二区在线播放| 狠狠色噜狠狠狠狠| 日韩精品一区二区中文字幕| 精品国产一二三四区| 成年人性生活免费看| 69久久夜色精品国产69–| 午夜电影一区| 99国产精品永久免费视频| 91在线一区二区| 一区二区三区中文字幕| 国产日韩一区二区在线| 欧美一区视频观看| 国产一区二三| 国产一区网址| 一级久久久| 国产精品美女久久久免费| 久久99精品国产| 日本免费电影一区二区| 88888888国产一区二区| 国产精品人人爽人人做av片| 99国产伦精品一区二区三区 | 97久久超碰国产精品红杏| 99久久精品免费视频| 激情欧美一区二区三区| 亚洲伊人久久影院| 欧美一级久久久| 午夜一二区| 91影视一区二区三区| 夜夜躁狠狠躁日日躁2024| 国产精品你懂的在线| 久久久久久久国产| 免费久久一级欧美特大黄| 欧美国产一二三区| 美女啪啪网站又黄又免费| 久久久久久久久亚洲精品一牛| 欧美一级久久精品| 欧美一区二区三区激情在线视频| 午夜大片男女免费观看爽爽爽尤物| 国产美女视频一区二区三区| 欧美在线一区二区视频| 色婷婷精品久久二区二区我来| 亚洲欧美日韩一级| 欧美在线免费观看一区| 日韩欧美一区精品| 国产一区二区三区黄| 欧美极品少妇| 欧美日韩激情一区二区| 91avpro| 亚洲精品卡一| 国产91高清| 欧美乱战大交xxxxx| 26uuu色噜噜精品一区二区| 欧美一区二区三区国产精品| 久久午夜无玛鲁丝片午夜精品| 国产69精品久久99不卡解锁版| 国产婷婷一区二区三区久久| 午夜欧美影院| 国产精品乱码久久久久久久| 午夜影院伦理片| 欧美日韩一二三四区| 好吊妞国产欧美日韩免费观看网站| 理论片午午伦夜理片在线播放 | 欧美一级不卡| 久草精品一区|