[發明專利]一種基于網站點擊流的公共安全輿情分析方法有效
| 申請號: | 201911373986.6 | 申請日: | 2019-12-26 |
| 公開(公告)號: | CN111159519B | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 王誓偉;徐曉斌;李陽陽;金昊 | 申請(專利權)人: | 北京工業大學;中國電子科技集團公司電子科學研究院;北京郵電大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/958 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 吳蔭芳 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 網站 點擊 公共安全 輿情 分析 方法 | ||
1.一種基于網站點擊流的公共安全輿情分析方法,基于離線大數據處理平臺Hadoop和實時流數據處理平臺Storm實現,其特征在于包括以下步驟:
(1)獲取網站內容數據和網站日志數據;
(2)網站內容數據的預處理,得到特征詞;
(3)網站內容數據情感分析,得到當前網頁的情感得分CS:根據特征詞的情感分類計算當前網頁的情感得分,得分計算方法如下:CS=TOM*SOM*POM,得分結果分值為正,而且分值絕對值越大時,表明網頁的感情色彩越積極;得分結果分值為負,而且分值絕對值越大,表明網頁的感情色越消極,其中,TOM代表情感分類,SOM代表情感強度,POM代表情感極性,TOM、SOM和POM通過特征詞與正負面詞匯詞典匹配得到;
(4)點擊流數據的預處理:根據分析實時性需求的不同,可以通過讀取網站實時日志實現在線獲取點擊流數據,也可通過已經存儲到本地文件系統的日志獲取點擊流數據;
(5)點擊流數據處理及分析:5.1)獲取用戶在網站中的停留時間,由用戶節點中的時間戳頭節點和尾節點的差值獲得;5.2)獲取用戶在某個網頁中的停留時間,由用戶節點中相鄰時間戳節點之間的時間戳差值獲得;5.3)獲取用戶訪問網頁的成功率,由用戶節點中訪問成功率的值獲得;5.4)用戶訪問網站的IP地址,匹配IP地址與地理位置的匹配信息來確定來訪用戶的區域分布;
(6)計算點擊流數據中每個用戶節點的感情色彩值:由于網頁本身的情感色彩可以通過網頁的文本數據來計算,結合點擊流數據中相鄰節點的訪問時間差及訪問的成功率來計算每個節點的點擊流數據的情感色彩的得分:點擊流節點得分:NS=CS*TSD*SR,TSD表示相鄰節點時間戳差值,SR表示節點訪問的成功率;
(7)點擊流數據的情感值計算及輿情分布:采用三個方面的評價維度:1)網站整體的輿情狀況,用所有用戶的點擊流節點的總得分來評價一個網站的輿情情況,得分越高,網站輿情狀況越好;具體的依次計算點擊流數據中用戶訪問的每個資源地址情感得分;通過此方法計算所有的點擊流數據的情感得分,以所有的點擊流數據的情感得分作為輸入,得出當前網站的輿情等級;2)采用積極和消極兩個維度來客觀評價網站的輿情情況,由于在網頁情感得分中,我們采用綜合評判的方式進行計算,即正分和負分會相互抵消掉,為了更真實反映網站的情況,可以分別統計訪問的用戶對網站積極和消極得分;3)評估基于地理位置的網站輿情分布,通過點擊流數據中所有用戶的IP地址信息,匹配IP地址與地理位置映射表,得出用戶地理位置分布,計算不同地理位置下所有用戶的點擊流的得分總和,得出基于地理位置的輿情分布。
2.根據權利要求1所述的一種基于網站點擊流的公共安全輿情分析方法,其特征在于:所述網站內容數據包括網站中新聞或資訊的內容和用戶評論純文本數據;進一步的,社交、新聞媒體網站內容數據涵蓋如下幾方面的內容:1.新聞內容數據;2.用戶評論內容數據。
3.根據權利要求1所述的一種基于網站點擊流的公共安全輿情分析方法,其特征在于:所述網站內容數據通過網絡爬蟲或從網站管理員處獲得;網站日志數據通過導出網站日志服務器中用戶的訪問日志獲得,或者直接接入網站日志服務器獲得。
4.根據權利要求1所述的一種基于網站點擊流的公共安全輿情分析方法,其特征在于:步驟2具體包括:將文本數據作為輸入,首先對文本數據進行分詞處理,定義停用詞,統計所有分詞的詞頻;按照分詞詞頻排序所有的分詞,獲取排序前20的分詞作為特征詞。
5.根據權利要求1所述的一種基于網站點擊流的公共安全輿情分析方法,其特征在于:步驟(3)中所述正負面詞匯詞典:包括詞語詞性種類、情感類別、情感強度及極性信息。
6.根據權利要求1所述的一種基于網站點擊流的公共安全輿情分析方法,其特征在于:所述點擊流數據:指用戶在訪問網站時,每一次鼠標點擊都記錄了用戶的訪問信息,將每個用戶的訪問點擊連接起來形成用戶點擊流數據,網站點擊流數據從網站服務器日志文件中獲取;用戶節點指在點擊流數據中,每個用戶的所有點擊構成一個點擊流數據,用戶ID唯一標示了用戶的點擊流數據,形成用戶節點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學;中國電子科技集團公司電子科學研究院;北京郵電大學,未經北京工業大學;中國電子科技集團公司電子科學研究院;北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911373986.6/1.html,轉載請聲明來源鉆瓜專利網。





