[發(fā)明專利]并行化分布式網(wǎng)絡(luò)輿情數(shù)據(jù)管理方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201210424633.6 | 申請(qǐng)日: | 2012-10-30 |
| 公開(公告)號(hào): | CN102945270A | 公開(公告)日: | 2013-02-27 |
| 發(fā)明(設(shè)計(jì))人: | 楊睿塵 | 申請(qǐng)(專利權(quán))人: | 北京騰逸科技發(fā)展有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京清亦華知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 張大威 |
| 地址: | 100086 北京市海淀區(qū)青*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 并行 化分 網(wǎng)絡(luò) 輿情 數(shù)據(jù)管理 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域和信息技術(shù)領(lǐng)域,特別涉及一種并行化分布式網(wǎng)絡(luò)輿情數(shù)據(jù)管理方法及系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)應(yīng)用的廣泛普及,數(shù)據(jù)的海量性在各方面的體現(xiàn)越來(lái)越突出,從網(wǎng)絡(luò)流量數(shù)據(jù),到移動(dòng)通信用戶行為記錄;從搜索引擎的日志數(shù)據(jù),到銀行的客戶操作記錄,等等。這些海量信息與生俱來(lái)的數(shù)字化與網(wǎng)絡(luò)化性質(zhì),人們?cè)诠蚕砗A烤W(wǎng)絡(luò)信息的同時(shí),也面臨著海量數(shù)據(jù)存儲(chǔ)、訪問(wèn)和管理問(wèn)題。
以往當(dāng)人們需要存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)時(shí),數(shù)據(jù)庫(kù)通常是首選的解決方案,在數(shù)據(jù)規(guī)模不大時(shí),其可以提供便捷、穩(wěn)定的服務(wù)。然而隨著數(shù)據(jù)量的增長(zhǎng),特別是當(dāng)Web時(shí)代來(lái)臨后,針對(duì)動(dòng)輒TB級(jí)的龐大數(shù)據(jù),海量數(shù)據(jù)的存儲(chǔ)和訪問(wèn)成為了系統(tǒng)設(shè)計(jì)的瓶頸問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明旨在解決海量數(shù)據(jù)的存儲(chǔ)和訪問(wèn)數(shù)據(jù)庫(kù)設(shè)計(jì)瓶頸問(wèn)題,并對(duì)數(shù)據(jù)庫(kù)及數(shù)據(jù)操作進(jìn)行優(yōu)化設(shè)計(jì)。
本發(fā)明的一個(gè)目的在于提出一種效率較高的并行化分布式網(wǎng)絡(luò)輿情數(shù)據(jù)管理方法。
本發(fā)明的并行化分布式網(wǎng)絡(luò)輿情數(shù)據(jù)管理方法,包括:對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行抓?。粚?duì)所述互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行抽取;存儲(chǔ)和展示抓取和抽取得到的互聯(lián)網(wǎng)輿情數(shù)據(jù);以及對(duì)所述互聯(lián)網(wǎng)輿情數(shù)據(jù)的索引和查詢進(jìn)行優(yōu)化。
在本發(fā)明的方法的一個(gè)實(shí)施例中,所述對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行抓取包括:用戶設(shè)定網(wǎng)站的類型、所屬行業(yè)、所要抓取索引頁(yè)的鏈接;然后將所述索引頁(yè)對(duì)應(yīng)的網(wǎng)頁(yè)信息抓取的正則配置網(wǎng)頁(yè)導(dǎo)入數(shù)據(jù)庫(kù);以及讀取所述索引頁(yè)的完整抓取配置信息,對(duì)所述索引頁(yè)下的所有全文和評(píng)論進(jìn)行抓取,并對(duì)抓取的網(wǎng)頁(yè)進(jìn)行標(biāo)定和記錄。
在本發(fā)明的方法的一個(gè)實(shí)施例中,所述對(duì)所述互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行抽取包括:將所述索引頁(yè)對(duì)應(yīng)的網(wǎng)頁(yè)信息抽取正則配置文件導(dǎo)入數(shù)據(jù)庫(kù);以及讀取所述索引頁(yè)下正文、評(píng)論的完整抽取配置信息,進(jìn)行所述索引頁(yè)下的所有正文及評(píng)論的抽取,并對(duì)抽取的網(wǎng)頁(yè)進(jìn)行標(biāo)定和記錄。
在本發(fā)明的方法的一個(gè)實(shí)施例中,所述數(shù)據(jù)庫(kù)的讀操作和寫操作在不同數(shù)據(jù)庫(kù)服務(wù)器中進(jìn)行。
本發(fā)明的另一個(gè)目的在于提出一種效率較高的并行化分布式網(wǎng)絡(luò)輿情數(shù)據(jù)管理系統(tǒng)。
本發(fā)明的并行化分布式網(wǎng)絡(luò)輿情數(shù)據(jù)管理系統(tǒng),包括:數(shù)據(jù)抓取模塊,所述數(shù)據(jù)抓取模塊用于對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行抓??;數(shù)據(jù)抽取模塊,所述數(shù)據(jù)抽取模塊用于對(duì)所述互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行抽?。淮鎯?chǔ)模塊,所述存儲(chǔ)模塊用于存儲(chǔ)和展示抓取和抽取得到的互聯(lián)網(wǎng)輿情數(shù)據(jù);以及優(yōu)化模塊,所述優(yōu)化模塊用于對(duì)所述互聯(lián)網(wǎng)輿情數(shù)據(jù)的索引和查詢進(jìn)行優(yōu)化。
在本發(fā)明的系統(tǒng)的一個(gè)實(shí)施例中,所述數(shù)據(jù)抓取模塊包括:用戶設(shè)定模塊,所述用戶設(shè)定模塊用于用戶設(shè)定網(wǎng)站的類型、所屬行業(yè)、所要抓取索引頁(yè)的鏈接;第一導(dǎo)入模塊,所述第一導(dǎo)入模塊用于將所述索引頁(yè)對(duì)應(yīng)的網(wǎng)頁(yè)信息抓取的正則配置網(wǎng)頁(yè)導(dǎo)入數(shù)據(jù)庫(kù);以及抓取及標(biāo)定子模塊,所述抓取及標(biāo)定子模塊用于讀取所述索引頁(yè)的完整抓取配置信息,對(duì)所述索引頁(yè)下的所有全文和評(píng)論進(jìn)行抓取,并對(duì)抓取的網(wǎng)頁(yè)進(jìn)行標(biāo)定和記錄。
在本發(fā)明的系統(tǒng)的一個(gè)實(shí)施例中,所述數(shù)據(jù)抽取模塊包括:第二導(dǎo)入模塊,所述第二導(dǎo)入模塊用于將所述索引頁(yè)對(duì)應(yīng)的網(wǎng)頁(yè)信息抽取正則配置文件導(dǎo)入數(shù)據(jù)庫(kù);以及抽取及標(biāo)定子模塊,裝置抽取及標(biāo)定子模塊用于讀取所述索引頁(yè)下正文、評(píng)論的完整抽取配置信息,進(jìn)行所述索引頁(yè)下的所有正文及評(píng)論的抽取,并對(duì)抽取的網(wǎng)頁(yè)進(jìn)行標(biāo)定和記錄。
在本發(fā)明的系統(tǒng)的一個(gè)實(shí)施例中,所述數(shù)據(jù)庫(kù)的讀操作和寫操作在不同數(shù)據(jù)庫(kù)服務(wù)器中進(jìn)行。
本發(fā)明借鑒當(dāng)前通用的負(fù)載均衡技術(shù)、數(shù)據(jù)庫(kù)的讀寫分離技術(shù)、數(shù)據(jù)庫(kù)拆分技術(shù),并結(jié)合項(xiàng)目自身的特點(diǎn)對(duì)數(shù)據(jù)庫(kù)的設(shè)計(jì)進(jìn)行優(yōu)化處理,達(dá)到將數(shù)據(jù)庫(kù)建立在一臺(tái)服務(wù)器上,客戶端運(yùn)行在各自的服務(wù)器上,只將處理后的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)服務(wù)器上;也可以將現(xiàn)有數(shù)據(jù)庫(kù)進(jìn)行分拆,建立多個(gè)服務(wù)器上,公共的基礎(chǔ)信息和關(guān)聯(lián)信息可以通過(guò)數(shù)據(jù)庫(kù)同步和分發(fā)技術(shù)實(shí)現(xiàn)數(shù)據(jù)的一致性。本發(fā)明可以完成數(shù)據(jù)抓取所需配置的編輯、刪除管理功能;數(shù)據(jù)抽取所需配置的編輯、刪除管理功能;對(duì)抓取的網(wǎng)頁(yè)進(jìn)行標(biāo)定和記錄,對(duì)抽取的信息進(jìn)行結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)。為上層系統(tǒng)提供單臺(tái)服務(wù)器部署或多臺(tái)服務(wù)器分布式部署兩種部署方式。
本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
附圖說(shuō)明
本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
圖1為本發(fā)明的并行化分布式網(wǎng)絡(luò)輿情數(shù)據(jù)管理方法的流程圖;
圖2為本發(fā)明的并行化分布式網(wǎng)絡(luò)輿情數(shù)據(jù)管理系統(tǒng)的結(jié)構(gòu)框圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京騰逸科技發(fā)展有限公司,未經(jīng)北京騰逸科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210424633.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議設(shè)備的數(shù)據(jù)并行采集歸并方法及系統(tǒng)
- 減少EMI的并行數(shù)據(jù)傳輸方法
- 一種多媒體數(shù)據(jù)并行處理系統(tǒng)及方法
- 一種高速并行OQPSK解調(diào)時(shí)鐘的恢復(fù)系統(tǒng)
- 一種海量地震數(shù)據(jù)并行抽道集方法
- 3G協(xié)議的turbo碼并行譯碼方法及裝置
- 并行擴(kuò)展輸入輸出的教學(xué)裝置
- 數(shù)據(jù)的并行處理
- 并行式插件機(jī)
- 一種SPI總線與并行總線的橋接方法、設(shè)備、系統(tǒng)及介質(zhì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 一種輿情信息獲取方法及裝置
- 一種輿情歸并方法、裝置、服務(wù)器和存儲(chǔ)介質(zhì)
- 企業(yè)輿情監(jiān)測(cè)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種輿情數(shù)據(jù)推送方法、裝置、存儲(chǔ)介質(zhì)和終端設(shè)備
- 一種輿情分析方法
- 輿情分析方法、裝置、終端設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 知識(shí)庫(kù)構(gòu)建方法及裝置
- 生成輿情專題方法、系統(tǒng)及存儲(chǔ)介質(zhì)
- 基于區(qū)塊鏈、輿情和核心算法的金融風(fēng)控系統(tǒng)
- 網(wǎng)絡(luò)輿情云平臺(tái)用戶單位變更配置的方法及系統(tǒng)





