[發(fā)明專(zhuān)利]基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)輿情分析系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201810961969.3 | 申請(qǐng)日: | 2018-08-22 |
| 公開(kāi)(公告)號(hào): | CN109284432A | 公開(kāi)(公告)日: | 2019-01-29 |
| 發(fā)明(設(shè)計(jì))人: | 佘平;徐逢澍;李程;張慧萍;劉立;李寧波;馮馨銳 | 申請(qǐng)(專(zhuān)利權(quán))人: | 華東計(jì)算技術(shù)研究所(中國(guó)電子科技集團(tuán)公司第三十二研究所) |
| 主分類(lèi)號(hào): | G06F16/953 | 分類(lèi)號(hào): | G06F16/953;G06F16/958;G06F16/35 |
| 代理公司: | 上海段和段律師事務(wù)所 31334 | 代理人: | 李佳俊;郭國(guó)中 |
| 地址: | 201800 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 大數(shù)據(jù) 網(wǎng)絡(luò)輿情分析 海量數(shù)據(jù) 數(shù)據(jù)庫(kù) 存儲(chǔ) 自然語(yǔ)言處理 采集存儲(chǔ) 內(nèi)存計(jì)算 情感分析 索引構(gòu)建 輿情信息 呈現(xiàn)層 分析層 網(wǎng)頁(yè) 采集 互聯(lián)網(wǎng) 挖掘 分析 | ||
1.一種基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)輿情分析系統(tǒng),其特征在于,包括:
采集存儲(chǔ)層:對(duì)網(wǎng)頁(yè)中的數(shù)據(jù)進(jìn)行采集、存儲(chǔ)至大數(shù)據(jù)數(shù)據(jù)庫(kù)和索引構(gòu)建;
分析層:通過(guò)大數(shù)據(jù)內(nèi)存計(jì)算框架對(duì)接大數(shù)據(jù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行輿情信息的分析;
呈現(xiàn)層:呈現(xiàn)當(dāng)前的輿情狀態(tài)。
2.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)輿情分析系統(tǒng),其特征在于,所述采集存儲(chǔ)層包括:
網(wǎng)絡(luò)爬蟲(chóng)模塊:采用網(wǎng)絡(luò)爬蟲(chóng)對(duì)網(wǎng)頁(yè)中的數(shù)據(jù)進(jìn)行爬取;
數(shù)據(jù)存儲(chǔ)模塊:將爬取的數(shù)據(jù)存入大數(shù)據(jù)數(shù)據(jù)庫(kù);
索引構(gòu)建模塊:在存入數(shù)據(jù)的同時(shí)啟動(dòng)索引后端服務(wù),按時(shí)間順序進(jìn)行數(shù)據(jù)庫(kù)的輿情內(nèi)容訪(fǎng)問(wèn),并根據(jù)內(nèi)容進(jìn)行倒排索引構(gòu)建。
3.根據(jù)權(quán)利要求2所述的基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)輿情分析系統(tǒng),其特征在于,所述網(wǎng)絡(luò)爬蟲(chóng)模塊在爬取的同時(shí)結(jié)合當(dāng)前互聯(lián)網(wǎng)搜索引擎的結(jié)果進(jìn)行爬取修正,不同的網(wǎng)站對(duì)象采用不同的網(wǎng)絡(luò)爬蟲(chóng)模塊進(jìn)行爬取,爬取的結(jié)果以文本的方式統(tǒng)一存儲(chǔ)到大數(shù)據(jù)數(shù)據(jù)庫(kù)。
4.根據(jù)權(quán)利要求2所述的基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)輿情分析系統(tǒng),其特征在于,所述數(shù)據(jù)存儲(chǔ)模塊以網(wǎng)頁(yè)地址和時(shí)間戳組成主鍵,以網(wǎng)頁(yè)內(nèi)容為數(shù)據(jù)值,構(gòu)建輿情原始內(nèi)容數(shù)據(jù)集。
5.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)輿情分析系統(tǒng),其特征在于,所述分析層包括:
文本特征提取模塊:對(duì)所述采集存儲(chǔ)層采集到的數(shù)據(jù)進(jìn)行解析梳理,得到文本特征值;
文本分類(lèi)模塊:采用分類(lèi)器,根據(jù)文本特征對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分類(lèi);
熱點(diǎn)聚類(lèi)模塊:對(duì)于當(dāng)天各個(gè)類(lèi)下的文本根據(jù)特征向量分別作K均值聚類(lèi),生成當(dāng)日的熱點(diǎn)事件,以各個(gè)類(lèi)的質(zhì)心作為整個(gè)熱點(diǎn)的特征向量;
輿情熱點(diǎn)分析模塊:使用分類(lèi)器對(duì)各個(gè)網(wǎng)頁(yè)文本進(jìn)行正負(fù)面分類(lèi),并對(duì)每個(gè)熱點(diǎn)事件進(jìn)行統(tǒng)計(jì),以描述熱點(diǎn)事件整體情感傾向或敏感傾向;
熱點(diǎn)事件態(tài)勢(shì)預(yù)測(cè)模塊:對(duì)熱點(diǎn)事件再次進(jìn)行聚類(lèi),以生成對(duì)各個(gè)熱點(diǎn)事件基于時(shí)間軸的摘要匯總,對(duì)事件的情感傾向或敏感傾向進(jìn)行線(xiàn)性回歸預(yù)測(cè)。
6.根據(jù)權(quán)利要求5所述的基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)輿情分析系統(tǒng),其特征在于,所述文本特征提取模塊包括:
文本清洗:對(duì)html源網(wǎng)頁(yè)進(jìn)行去標(biāo)簽化處理,提取網(wǎng)頁(yè)中的中英文文本內(nèi)容,并對(duì)gbk、gb2312編碼的中文做內(nèi)碼轉(zhuǎn)換,統(tǒng)一成utf8編碼;
文本分詞:通過(guò)詞庫(kù),對(duì)文本進(jìn)行分詞;
文本特征提取:計(jì)算文本中各個(gè)詞語(yǔ)的TF-IDF值,對(duì)網(wǎng)頁(yè)文本構(gòu)建詞頻特征向量,并將特征值存儲(chǔ)于大數(shù)據(jù)數(shù)據(jù)庫(kù)。
7.根據(jù)權(quán)利要求5所述的基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)輿情分析系統(tǒng),其特征在于,所述文本分類(lèi)模塊采用樸素貝葉斯分類(lèi)器進(jìn)行分類(lèi)。
8.根據(jù)權(quán)利要求5所述的基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)輿情分析系統(tǒng),其特征在于,所述K均值聚類(lèi)對(duì)于給定的樣本集,按照樣本之間的距離大小,將樣本集劃分為K個(gè)簇,讓簇內(nèi)的點(diǎn)盡量緊密的連在一起,而讓簇間的距離盡量的大。
9.根據(jù)權(quán)利要求5所述的基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)輿情分析系統(tǒng),其特征在于,所述輿情熱點(diǎn)分析模塊使用支持向量機(jī)分類(lèi)器對(duì)各個(gè)網(wǎng)頁(yè)文本進(jìn)行正負(fù)面分類(lèi)。
10.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)輿情分析系統(tǒng),其特征在于,所述呈現(xiàn)層包括:
-根據(jù)用戶(hù)的關(guān)鍵字進(jìn)行定向爬取和呈現(xiàn);
-搜索指定的網(wǎng)頁(yè)內(nèi)容;
-通過(guò)關(guān)鍵字進(jìn)行輿情報(bào)告分析;
-對(duì)當(dāng)前爬取的輿情進(jìn)行總體狀況統(tǒng)計(jì);
-對(duì)輿情發(fā)展的趨勢(shì)進(jìn)行閾值設(shè)置,當(dāng)敏感信息超過(guò)設(shè)定值后報(bào)警。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于華東計(jì)算技術(shù)研究所(中國(guó)電子科技集團(tuán)公司第三十二研究所),未經(jīng)華東計(jì)算技術(shù)研究所(中國(guó)電子科技集團(tuán)公司第三十二研究所)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810961969.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)安全實(shí)施系統(tǒng)及方法
- 基于事件驅(qū)動(dòng)的智慧城市大數(shù)據(jù)體系及處理方法
- 一種大數(shù)據(jù)應(yīng)用開(kāi)發(fā)的系統(tǒng)及方法
- 家用設(shè)備報(bào)告的生成方法、大數(shù)據(jù)系統(tǒng)和存儲(chǔ)介質(zhì)
- 一種基于計(jì)算機(jī)大數(shù)據(jù)的平臺(tái)架構(gòu)
- 一種大數(shù)據(jù)處理系統(tǒng)
- 面向工業(yè)4.0的時(shí)空大數(shù)據(jù)分布式存儲(chǔ)檢索方法及系統(tǒng)
- 一種聯(lián)網(wǎng)式醫(yī)療大數(shù)據(jù)分級(jí)傳輸方法及系統(tǒng)
- 一種大數(shù)據(jù)信息監(jiān)控方法、裝置及計(jì)算機(jī)設(shè)備
- 一種知識(shí)產(chǎn)權(quán)大數(shù)據(jù)情報(bào)檢索系統(tǒng)
- 網(wǎng)絡(luò)輿情分析方法和裝置
- 一種基于社交網(wǎng)絡(luò)平臺(tái)的輿情分析方法及系統(tǒng)
- 一種基于社交網(wǎng)絡(luò)平臺(tái)的輿情分析方法及系統(tǒng)
- 基于數(shù)據(jù)特征的輿情分析方法和系統(tǒng)
- 輿情分析方法、系統(tǒng)、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)輿情分析方法和裝置
- 一種具有電力行業(yè)特征的網(wǎng)絡(luò)輿情分析與輔助決策系統(tǒng)
- 一種基于圖像的網(wǎng)絡(luò)輿情預(yù)警系統(tǒng)和方法
- 一種基于事理圖譜的輿情分析方法、裝置及電子設(shè)備
- 一種輿情分析方法及裝置
- 一種數(shù)據(jù)庫(kù)海量數(shù)據(jù)比對(duì)的方法
- 基于云計(jì)算的海量數(shù)據(jù)訪(fǎng)問(wèn)處理系統(tǒng)
- 一種海量矢量切片數(shù)據(jù)云存儲(chǔ)方法及系統(tǒng)
- 一種海量數(shù)據(jù)的清洗方法和系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實(shí)現(xiàn)海量數(shù)據(jù)準(zhǔn)實(shí)時(shí)全量統(tǒng)計(jì)的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 一種海量點(diǎn)數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲(chǔ)方法
- 一種海量并發(fā)性雷達(dá)數(shù)據(jù)存儲(chǔ)方法
- 數(shù)據(jù)庫(kù)
- 數(shù)據(jù)庫(kù)管理系統(tǒng)及數(shù)據(jù)庫(kù)
- 數(shù)據(jù)庫(kù)構(gòu)筑裝置、數(shù)據(jù)庫(kù)檢索裝置、數(shù)據(jù)庫(kù)裝置、數(shù)據(jù)庫(kù)構(gòu)筑方法、以及數(shù)據(jù)庫(kù)檢索方法
- 數(shù)據(jù)庫(kù)和數(shù)據(jù)庫(kù)處理方法
- 數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)庫(kù)更新方法、數(shù)據(jù)庫(kù)以及數(shù)據(jù)庫(kù)更新程序
- 容器數(shù)據(jù)庫(kù)
- 數(shù)據(jù)庫(kù)同步方法及數(shù)據(jù)庫(kù)
- 一種MongoDB數(shù)據(jù)庫(kù)對(duì)象復(fù)制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲(chǔ)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)庫(kù)語(yǔ)句執(zhí)行方法及裝置





