[發(fā)明專利]一種基于網(wǎng)站點(diǎn)擊流的公共安全輿情分析方法有效
| 申請?zhí)枺?/td> | 201911373986.6 | 申請日: | 2019-12-26 |
| 公開(公告)號: | CN111159519B | 公開(公告)日: | 2021-07-23 |
| 發(fā)明(設(shè)計(jì))人: | 王誓偉;徐曉斌;李陽陽;金昊 | 申請(專利權(quán))人: | 北京工業(yè)大學(xué);中國電子科技集團(tuán)公司電子科學(xué)研究院;北京郵電大學(xué) |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/958 |
| 代理公司: | 北京思海天達(dá)知識產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 吳蔭芳 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 網(wǎng)站 點(diǎn)擊 公共安全 輿情 分析 方法 | ||
本發(fā)明涉及一種基于網(wǎng)站點(diǎn)擊流數(shù)據(jù)的公共安全輿情分析方法,用于解決當(dāng)前輿情分析中存在的數(shù)據(jù)來源不全面、輿情分析不準(zhǔn)確、不具有實(shí)時性的問題。具體內(nèi)容包括:1)通過獲取網(wǎng)站內(nèi)容數(shù)據(jù)和網(wǎng)站的用戶訪問日志數(shù)據(jù)作為數(shù)據(jù)源,解決了當(dāng)前輿情分析中數(shù)據(jù)來源不全面的問題;2)由于點(diǎn)擊流數(shù)據(jù)中包含用戶訪問的行為信息,可以增加輿情分析的分析維度,使得輿情分析更加客觀、準(zhǔn)確、全面;3)通過匹配點(diǎn)擊流數(shù)據(jù)中的IP地址信息,可以獲取到用戶實(shí)際的地理位置信息,基于用戶的實(shí)際地理位置信息,可以獲取到實(shí)時的、真實(shí)的基于地理位置的輿情分析結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明提出了一種基于Hadoop大數(shù)據(jù)處理平臺,可對網(wǎng)站離線數(shù)據(jù)和實(shí)時流數(shù)據(jù)進(jìn)行數(shù)據(jù)處理及分析方法。本方法中使用的數(shù)據(jù)源為通用日志格式的網(wǎng)站服務(wù)器日志數(shù)據(jù)。相比傳統(tǒng)的統(tǒng)計(jì)學(xué)分析算法,本方法可實(shí)現(xiàn)對公共安全輿情做出更為全面的分析和更為精準(zhǔn)的預(yù)測。
技術(shù)背景
當(dāng)下,大數(shù)據(jù)技術(shù)已經(jīng)普及,全球數(shù)據(jù)量預(yù)計(jì)將會達(dá)到35ZB(相當(dāng)于35萬億GB),有分析公司指出,新產(chǎn)生的數(shù)據(jù)量每年正以至少50%的速度增長,大數(shù)據(jù)時代已經(jīng)到來。在大數(shù)據(jù)時代,保障城市公共安全應(yīng)防患于未然,輿情監(jiān)管是其重要實(shí)現(xiàn)途徑,數(shù)據(jù)分析及預(yù)測技術(shù)能夠?qū)崿F(xiàn)對輿情的實(shí)時分析和預(yù)測,監(jiān)管部門可以基于對輿情的預(yù)測及時做出應(yīng)對措施,防患于未然,從而達(dá)到在一定程度上控制輿情的作用,進(jìn)而保障公共安全。
傳統(tǒng)輿情分析方法更關(guān)注于對網(wǎng)頁內(nèi)容及用戶評價內(nèi)容的分析,數(shù)據(jù)的主要來源為網(wǎng)站的內(nèi)容數(shù)據(jù),導(dǎo)致有些用戶訪問數(shù)據(jù)不能被收集利用,并且數(shù)據(jù)分析過程大部分采用統(tǒng)計(jì)學(xué)方法進(jìn)行分析,具有一定的局限性。因此建立一套完整的,全面的,詳細(xì)的輿情分析模型成為客觀需要。本模型通過大數(shù)據(jù)處理平臺對點(diǎn)擊流數(shù)據(jù)及網(wǎng)頁內(nèi)容數(shù)據(jù)進(jìn)行綜合處理與分析,從而實(shí)現(xiàn)比較全面的分析預(yù)測及展示。
發(fā)明內(nèi)容
為解決當(dāng)前輿情分析中存在的數(shù)據(jù)來源不全面的問題。本發(fā)明將網(wǎng)站內(nèi)容數(shù)據(jù)和網(wǎng)站日志數(shù)據(jù)作為源數(shù)據(jù),通過預(yù)處理模型對內(nèi)容數(shù)據(jù)進(jìn)行特征詞詞頻統(tǒng)計(jì)處理,通過數(shù)據(jù)挖掘的一些方法對網(wǎng)站日志數(shù)據(jù)進(jìn)行處理,得到網(wǎng)站點(diǎn)擊流數(shù)據(jù)。從而可以獲取比較全面的、多維度的數(shù)據(jù)。針對當(dāng)前輿情分析中數(shù)據(jù)分析實(shí)時性差,分析結(jié)果不準(zhǔn)確的問題,本方法提出實(shí)時處理點(diǎn)擊流數(shù)據(jù),并基于網(wǎng)站內(nèi)容數(shù)據(jù)和網(wǎng)站日志數(shù)據(jù)兩方面實(shí)現(xiàn)較精確的網(wǎng)站輿情分析。本方法整體架構(gòu)如圖1所示。
發(fā)明內(nèi)容具體如下:
一種基于網(wǎng)站點(diǎn)擊流的公共安全輿情分析方法,基于離線大數(shù)據(jù)處理平臺Hadoop和實(shí)時流數(shù)據(jù)處理平臺Storm實(shí)現(xiàn)。
首先對本方法中涉及的重要對象進(jìn)行說明:
[1]正負(fù)面詞匯詞典:包括詞語詞性種類、情感類別、情感強(qiáng)度及極性信息。
[2]網(wǎng)站內(nèi)容數(shù)據(jù):包括網(wǎng)站中新聞或資訊的內(nèi)容數(shù)據(jù)和用戶評論純文本數(shù)據(jù)。以微博為例,主要是某個事件的內(nèi)容、用戶評價等數(shù)據(jù)。進(jìn)一步的,社交、新聞媒體等網(wǎng)站內(nèi)容數(shù)據(jù)涵蓋如下幾方面的內(nèi)容:1.新聞內(nèi)容的數(shù)據(jù);2.用戶評論內(nèi)容數(shù)據(jù)。
[3]點(diǎn)擊流數(shù)據(jù):指用戶在訪問網(wǎng)站時,每一次鼠標(biāo)點(diǎn)擊都記錄了用戶的訪問信息,將每個用戶的訪問點(diǎn)擊連接起來形成用戶點(diǎn)擊流數(shù)據(jù)。網(wǎng)站點(diǎn)擊流數(shù)據(jù)一般從網(wǎng)站服務(wù)器日志文件中獲取。
[4]通用日志格式CLF(Commom Log Format):作為網(wǎng)站服務(wù)器的標(biāo)準(zhǔn)日志格式,記錄用戶訪問網(wǎng)站的一些基本信息,被大多數(shù)網(wǎng)站所采用。本發(fā)明采用通用日志格式的日志作為點(diǎn)擊流數(shù)據(jù)的數(shù)據(jù)來源,這些數(shù)據(jù)一方面要持久化存儲在大數(shù)據(jù)存儲平臺Hive中,一方面要以實(shí)時流數(shù)據(jù)的方式為流數(shù)據(jù)處理平臺Storm提供數(shù)據(jù)源。點(diǎn)擊流數(shù)據(jù)處理模型的基本架構(gòu)如圖2所示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué);中國電子科技集團(tuán)公司電子科學(xué)研究院;北京郵電大學(xué),未經(jīng)北京工業(yè)大學(xué);中國電子科技集團(tuán)公司電子科學(xué)研究院;北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911373986.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計(jì)算設(shè)備
- 一種網(wǎng)站識別方法及裝置
- 網(wǎng)站風(fēng)險評估方法及裝置
- 網(wǎng)站版權(quán)時間的管理方法、裝置、存儲介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識別方法
- 網(wǎng)站應(yīng)用框架指紋識別的方法、設(shè)備、裝置及介質(zhì)





