[發明專利]一種概率主題計算與匹配的輿情監測方法及系統有效
| 申請號: | 201710248537.3 | 申請日: | 2017-04-17 |
| 公開(公告)號: | CN107066585B | 公開(公告)日: | 2019-10-01 |
| 發明(設計)人: | 馬坤;周勁;于自強;紀科 | 申請(專利權)人: | 濟南大學 |
| 主分類號: | G06F16/906 | 分類號: | G06F16/906 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250022 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 解析 爬蟲 分詞 集群 匹配 全文檢索系統 監測 概率主題 數據采集 文檔主題 主題匹配 頁面 采集 讀取 歷史文檔 媒體數據 內容合并 文檔存儲 異步方式 中文分詞 規則庫 數據源 停用詞 文檔集 主題集 主題庫 推送 推斷 合并 | ||
1.一種概率主題計算與匹配的輿情監測方法,其特征是,包括:
步驟(1):數據采集:
步驟(101):數據采集解析:利用爬蟲集群從數據源中采集頁面HTML,然后爬蟲集群依據規則庫對采集到的頁面HTML進行解析得到若干條媒體數據;解析出來的每一條媒體數據均被稱作一篇文檔,每篇文檔包括標題、時間與內容;
所述規則庫包括一組選擇器;
所述爬蟲集群使用選擇器從采集到的頁面HTML解析出包含標題、時間和內容屬性的文檔;所述選擇器包括三種,分別是元素選擇器、屬性選擇器、聯合選擇器;
所述元素選擇器通過HTML標簽名稱、HTML標簽ID或HTML標簽類名選擇相應的元素;
所述屬性選擇器通過HTML標簽屬性值、HTML標簽屬性值模糊匹配或HTML標簽屬性值正則匹配選擇相應的元素;
所述聯合選擇器通過元素ID、元素類名、元素屬性、相同祖先元素的子元素或相同父母元素的子元素選擇相應的元素;
步驟(102):存儲推送:所述爬蟲集群采用異步方式將解析得到的文檔存儲在全文檢索系統,采用同步方法將解析得到的文檔推送至步驟(3)進行主題匹配;
步驟(2):主題計算:
步驟(201):中文分詞:從全文檢索系統中讀取文檔,將每個文檔的標題與內容合并,利用條件隨機場分詞算法對合并后的內容進行分詞,分詞后去掉停用詞;
步驟(202):主題估計:采用Gibbs抽樣對分詞后的內容估計出主題庫與歷史文檔主題集;
步驟(3):主題匹配:將數據采集實時推送的文檔推斷出實際文檔主題集,并將實際文檔主題集與用戶輸入的輿情監測關鍵詞進行匹配,得到有序文檔集。
2.如權利要求1所述的一種概率主題計算與匹配的輿情監測方法,其特征是,
所述步驟(3)包括如下步驟:
步驟(301):文檔分發:按輪詢模式將數據采集實時推送的文檔并行分發下去;
步驟(302):中文分詞:將分發得到的每個文檔的標題與對應內容合并后,用條件隨機場CRF算法進行分詞,然后去掉停用詞;
步驟(303):主題推斷:采用Gibbs抽樣對分詞后的內容和主題估計得到的主題庫推斷出實時文檔主題集;
步驟(304):關鍵詞匹配:將實時文檔主題集與用戶輸入的輿情監測關鍵詞進行匹配;
步驟(305):排序:按照文檔評分從高到低對匹配后的文檔集進行排序形成有序文檔集。
3.如權利要求1所述的一種概率主題計算與匹配的輿情監測方法,其特征是,還包括:
步驟(4):輿情監測:根據步驟(3)得到的有序文檔集中的排序,得出輿情的監控情況,排序越靠前的,越是當前輿情關注的熱點。
4.如權利要求1所述的一種概率主題計算與匹配的輿情監測方法,其特征是,
主題計算中的主題估計,將主題估計抽象為Map任務與Reduce任務進行計算,步驟為:
Map任務,求解隱變量:為每個關鍵詞隨機生成一個主題,為每個文檔計算偽頻數,計算主題的后驗概率;
Reduce任務,求解模型參數:將每個主題關鍵詞的偽頻數疊加后標準化,計算出每個主題的關鍵詞分布與每個文檔的主題分布;
主題存儲:由每個主題的關鍵詞分布歸納出后驗概率最大的前M個主題,形成主題庫;每個文檔的主題分布中選擇概率最大的前N個,形成文檔主題集。
5.如權利要求2所述的一種概率主題計算與匹配的輿情監測方法,其特征是,
所述文檔評分為文檔相關度和文檔助推值的乘積;
所述文檔相關度為輿情監測關鍵詞與文檔主題的近似度,先計算輿情監測關鍵詞與實際文檔主題中的每個關鍵詞的近似度,然后計算每個近似度與域助推值乘積,然后對所有的乘積進行求和;所述域助推值反映了文檔中每個主題的重要程度,其值為該文檔主題的后驗概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于濟南大學,未經濟南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710248537.3/1.html,轉載請聲明來源鉆瓜專利網。





