[發明專利]一種概率主題計算與匹配的輿情監測方法及系統有效
| 申請號: | 201710248537.3 | 申請日: | 2017-04-17 |
| 公開(公告)號: | CN107066585B | 公開(公告)日: | 2019-10-01 |
| 發明(設計)人: | 馬坤;周勁;于自強;紀科 | 申請(專利權)人: | 濟南大學 |
| 主分類號: | G06F16/906 | 分類號: | G06F16/906 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250022 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 解析 爬蟲 分詞 集群 匹配 全文檢索系統 監測 概率主題 數據采集 文檔主題 主題匹配 頁面 采集 讀取 歷史文檔 媒體數據 內容合并 文檔存儲 異步方式 中文分詞 規則庫 數據源 停用詞 文檔集 主題集 主題庫 推送 推斷 合并 | ||
本發明公開了一種概率主題計算與匹配的輿情監測方法及系統;包括:數據采集解析:利用爬蟲集群從數據源中采集頁面HTML,然后爬蟲集群依據規則庫對采集到的頁面HTML進行解析得到若干條媒體數據;爬蟲集群采用異步方式將解析得到的文檔存儲在全文檢索系統,采用同步方法將解析得到的文檔進行主題匹配;中文分詞:從全文檢索系統中讀取文檔,將每個文檔的標題與內容合并,對合并后的內容進行分詞,分詞后去掉停用詞;主題估計:對分詞后的內容估計出主題庫與歷史文檔主題集;主題匹配:將數據采集實時推送的文檔推斷出實際文檔主題集,并將實際文檔主題集與用戶輸入的輿情監測關鍵詞進行匹配,得到有序文檔集,從而實現輿情監測。
技術領域
本發明涉及一種概率主題計算與匹配的輿情監測方法及系統。
背景技術
互聯網成為繼報紙、廣播、電視之后的第四媒體,每天會產生大量的類似論壇、博客、微博、微信等媒體數據。網絡輿情是指在互聯網上流行的對社會問題不同看法的網絡輿論,是社會輿論的一種表現形式,是通過互聯網傳播的公眾對現實生活中某些熱點、焦點問題所持的有較強影響力、傾向性的言論和觀點。隨著社交媒體的爆炸性增長,自動化輿情分析與監控可為多個領域或行業提供決策支持。然而,現有技術主要通過文本匹配實現輿情監測,缺乏語義支持,匹配后監測結果的排序并不一定完全準確。
大數據環境下,計算機輔助內容數據自動化分析技術是輿情監測的關鍵?,F有技術主要存在三類內容分析方法:
(1)基于情感詞典的內容分析:該方法將搜索關鍵詞與預定義的標準詞典進行匹配。然而,由于每個單詞組合可以僅具有用于所有文本的一個固定的含義,所以這些手工創建的單詞索引通常是不充分且有限的。除此之外,內容匹配不能考慮到語義相似的同義詞;
(2)基于頭詞和修飾符共現的統計方法:不同于能夠理解語言細微差別的程序員,該方法從大量內容文本中統計特定關鍵詞隱藏的真實含義。該方法的缺點是不能發現未知知識;
(3)基于分類的內容分析:該方法使用神經網絡、支持向量機、樸素貝葉斯、最大熵等建模對文本進行分類。然而,分類方法也不能發現隱藏的主題。
發明內容
本發明的目的就是對互聯網媒體內容進行監測,及時發現網絡輿情,提供一種概率主題計算與匹配的輿情監測方法及系統,本系統具有實時性,通過數據采集、主題計算與主題匹配實現輿情監測。
為了實現上述目的,本發明采用如下技術方案:
一種概率主題計算與匹配的輿情監測方法,包括:
步驟(1):數據采集:
步驟(101):數據采集解析:利用爬蟲集群從數據源中采集頁面HTML,然后爬蟲集群依據規則庫對采集到的頁面HTML進行解析得到若干條媒體數據;解析出來的每一條媒體數據均被稱作一篇文檔,每篇文檔包括標題、時間與內容;
步驟(102):存儲推送:所述爬蟲集群采用異步方式將解析得到的文檔存儲在全文檢索系統,采用同步方法將解析得到的文檔推送至步驟(3)進行主題匹配;
步驟(2):主題計算:
步驟(201):中文分詞:從全文檢索系統中讀取文檔,將每個文檔的標題與內容合并,利用條件隨機場分詞算法對合并后的內容進行分詞,分詞后去掉停用詞;
步驟(202):主題估計:采用Gibbs抽樣對分詞后的內容估計出主題庫與歷史文檔主題集;
步驟(3):主題匹配:將數據采集實時推送的文檔推斷出實際文檔主題集,并將實際文檔主題集與用戶輸入的輿情監測關鍵詞進行匹配,得到有序文檔集。
所述步驟(3)包括如下步驟:
步驟(301):文檔分發:按輪詢模式將數據采集實時推送的文檔并行分發下去;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于濟南大學,未經濟南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710248537.3/2.html,轉載請聲明來源鉆瓜專利網。





