[發(fā)明專利]并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取方法及其系統(tǒng)無效
| 申請?zhí)枺?/td> | 201210421574.7 | 申請日: | 2012-10-29 |
| 公開(公告)號: | CN102937988A | 公開(公告)日: | 2013-02-20 |
| 發(fā)明(設(shè)計)人: | 楊睿塵 | 申請(專利權(quán))人: | 北京騰逸科技發(fā)展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 張大威 |
| 地址: | 100086 北京市海淀區(qū)青*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 并行 化分 互聯(lián)網(wǎng) 數(shù)據(jù) 抽取 方法 及其 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計算機應(yīng)用技術(shù)領(lǐng)域和信息技術(shù)領(lǐng)域,具體涉及一種并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取方法及其系統(tǒng)。
背景技術(shù)
現(xiàn)今,互聯(lián)網(wǎng)的發(fā)展日新月異,中國的網(wǎng)民數(shù)量也在呈爆發(fā)式增長?;ヂ?lián)網(wǎng)已逐步取代傳統(tǒng)的媒體(包括報紙、書籍、廣播、電視等等),變成人們獲取和發(fā)布信息的主要來源。同時,由于互聯(lián)網(wǎng)自由開放、使用簡單、傳播速度快、使用者眾多的特點,使得互聯(lián)網(wǎng)信息能夠迅速的傳播并造成影響。正是由于互聯(lián)網(wǎng)扮演的角色越來越重要,所以各種針對互聯(lián)網(wǎng)信息的研究也蓬勃發(fā)展起來。為了進行互聯(lián)網(wǎng)信息的研究,首先需要將海量的格式各異的互聯(lián)網(wǎng)網(wǎng)頁信息抽取處理,并進行統(tǒng)一的格式轉(zhuǎn)換,以方便后期分析處理;其次,需要應(yīng)用高質(zhì)量和高效率抽取技術(shù)。正是基于這一迫切需求,我們開發(fā)了并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明旨在至少在一定程度上解決上述技術(shù)問題之一或至少提供一種有用的商業(yè)選擇。為此,本發(fā)明的一個目的在于提出一種具有高質(zhì)高效的并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取方法及其系統(tǒng)。
本發(fā)明的一方面提出一種并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取方法,包括步驟:獲取爬取得到的網(wǎng)頁序列,依次獲取網(wǎng)頁配置信息并對網(wǎng)頁進行數(shù)據(jù)抽??;對數(shù)據(jù)抽取得到的內(nèi)容進行編碼轉(zhuǎn)換;對編碼轉(zhuǎn)換后的內(nèi)容進行數(shù)據(jù)清洗;以及判斷數(shù)據(jù)清洗后的內(nèi)容是否信息重復(fù),如不重復(fù),存入數(shù)據(jù)庫。
在本發(fā)明的方法的一個實施例中,所述數(shù)據(jù)抽取是以并行化分布式的模式進行。
在本發(fā)明的方法的一個實施例中,所述編碼轉(zhuǎn)換包括:將數(shù)值型信息轉(zhuǎn)換為統(tǒng)一長度的整數(shù)或者浮點數(shù);將所有的時間信息轉(zhuǎn)化為統(tǒng)一格式的絕對時間;以及將單位信息轉(zhuǎn)化為統(tǒng)一的數(shù)據(jù)單位和度量衡。
在本發(fā)明的方法的一個實施例中,所述數(shù)據(jù)清洗包括:針對正文的數(shù)據(jù)清洗和針對評論的數(shù)據(jù)清洗。
本發(fā)明的另一方面提出一種并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取系統(tǒng),包括:數(shù)據(jù)抽取模塊,所述數(shù)據(jù)抽取模塊用于獲取爬取得到的網(wǎng)頁序列,依次獲取網(wǎng)頁配置信息并對網(wǎng)頁進行數(shù)據(jù)抽取;編碼轉(zhuǎn)換模塊,所述編碼轉(zhuǎn)換模塊用于對數(shù)據(jù)抽取得到的內(nèi)容進行編碼轉(zhuǎn)換;數(shù)據(jù)清洗模塊,所述數(shù)據(jù)清洗模塊用于對編碼轉(zhuǎn)換后的內(nèi)容進行數(shù)據(jù)清洗;判斷重復(fù)模塊,所述判斷重復(fù)模塊用于判斷數(shù)據(jù)清洗后的內(nèi)容是否信息重復(fù);以及存儲模塊,如果所述判斷重復(fù)模塊的結(jié)果為不重復(fù),將數(shù)據(jù)清洗后的內(nèi)容存入數(shù)據(jù)庫。
在本發(fā)明的系統(tǒng)的一個實施例中,所述數(shù)據(jù)抽取模塊為并行化分布式結(jié)構(gòu)。
在本發(fā)明的系統(tǒng)的一個實施例中,所述編碼轉(zhuǎn)換模塊包括:數(shù)值轉(zhuǎn)換子模塊,所述數(shù)值轉(zhuǎn)換子模塊用于將數(shù)值型信息轉(zhuǎn)換為統(tǒng)一長度的整數(shù)或者浮點數(shù);時間轉(zhuǎn)換子模塊,所述時間轉(zhuǎn)換子模塊用于將所有的時間信息轉(zhuǎn)化為統(tǒng)一格式的絕對時間;以及單位轉(zhuǎn)換子模塊,所述單位轉(zhuǎn)換子模塊用于將單位信息轉(zhuǎn)化為統(tǒng)一的數(shù)據(jù)單位和度量衡。
在本發(fā)明的系統(tǒng)的一個實施例中,所述數(shù)據(jù)清洗模塊包括:正文數(shù)據(jù)清洗子模塊和評論數(shù)據(jù)清洗子模塊。
首先,本發(fā)明的的方法和系統(tǒng)能夠通過配置的方式自由的擴展需要抽取的目標(biāo)站點,由于采用了并行化和分布式的設(shè)計,使得數(shù)據(jù)抽取的效率和實時性得到了很好的保證。其次,本發(fā)明中采用了抽取數(shù)據(jù)清洗機制,針對抽取數(shù)據(jù)進行過濾凈化,去除其中可能包含的各種非法無意義的內(nèi)容,大大提高了抽取數(shù)據(jù)的有效程度,保證了之后針對抽取數(shù)據(jù)的分析處理的準(zhǔn)確性和真實性。再者,本發(fā)明針對抽取到的數(shù)據(jù)做了統(tǒng)一的數(shù)據(jù)格式轉(zhuǎn)換和字符編碼轉(zhuǎn)換,為最終的程序處理和數(shù)據(jù)存儲提供了很大的便利。因此,本發(fā)明的方法和系統(tǒng)具有高質(zhì)量和高效率的優(yōu)點。
本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
附圖說明
本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1是本發(fā)明實施例的并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取方法的流程圖;
圖2是本發(fā)明實施例的并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取系統(tǒng)的結(jié)構(gòu)框圖;
圖3是本發(fā)明實施例的并行化分布式互聯(lián)網(wǎng)數(shù)據(jù)抽取方法的詳細流程圖;和
圖4是本發(fā)明實施例的并行化分布式特征的數(shù)據(jù)抽取模塊的結(jié)構(gòu)示意圖。
具體實施方式
下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京騰逸科技發(fā)展有限公司,未經(jīng)北京騰逸科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210421574.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于網(wǎng)絡(luò)電視的互聯(lián)網(wǎng)業(yè)務(wù)處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務(wù)接入網(wǎng)關(guān)的實現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應(yīng)用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動攝像終端進行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡(luò)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護用于互聯(lián)網(wǎng)資源分配的事務(wù)
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務(wù)器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





