[發明專利]一種網絡輿情文本信息推薦及可視化方法在審
| 申請號: | 201710750370.0 | 申請日: | 2017-08-28 |
| 公開(公告)號: | CN107491548A | 公開(公告)日: | 2017-12-19 |
| 發明(設計)人: | 李阜陽;胡華;瞿毅;金俏 | 申請(專利權)人: | 武漢烽火普天信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海精晟知識產權代理有限公司31253 | 代理人: | 馮子玲 |
| 地址: | 430000 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 輿情 文本 信息 推薦 可視化 方法 | ||
技術領域
本發明涉及信息技術領域,具體的說是一種網絡輿情文本信息推薦及可視化方法。
背景技術
隨著互聯網的快速發展,網絡媒體作為一種新的信息傳播形式,已深入人們的日常生活。網友言論活躍已達到前所未有的程度,不論是國內還是國際重大事件,都能馬上形成網上輿論,通過這種網絡來表達觀點、傳播思想,進而產生巨大的輿論壓力,達到任何部門、機構都無法忽視的地步。可以說,互聯網已成為思想文化信息的集散地和社會輿論的放大器。網絡情報服務系統是利用搜索引擎技術和網絡信息挖掘技術,通過網頁內容的自動采集處理、敏感詞過濾、智能聚類分類、主題檢測、專題聚焦、統計分析,實現各單位對自己相關網絡情報監督管理的需要,最終形成情報簡報、情報專報、分析報告、移動快報,為決策層全面掌握情報動態,做出正確輿論引導,提供分析依據。
傳統的輿情推薦系統根據用戶閱讀興趣和文本內容,向用戶推薦輿情信息。傳統方法在輿情推薦上效果較差的主要原因是:政府部門及企事業單位關注網絡輿情具有地域性(例如武漢的輿情事件和新疆的輿情事件,武漢的政府部門會更關心前者),且國內各省市內的區、鎮、村的名字具有重名現象,地理位置識別后,需要消除歧義;政府部門及企事業單位關注網絡輿情的歷史數據較少,很難通過分析用戶行為數據進行輿情信息推薦,推薦系統的冷啟動問題。且輿情服務需求具有獨特性(準確的地理位置分析、用戶關注的主題分布、文本的情感程度、突發事件的爆發性、傳播量);網絡輿情來源很廣(媒體評論、微信公眾號、微博、貼吧、論壇、博客等),文本長短切內容形式差異很大。
基于此,針對上述現狀中存在的問題,本發明提出了一種網絡輿情文本信息推薦及可視化方法,能夠準確、全面、快速的為用戶推薦輿情信息。
發明內容
為了解決上述現有技術的問題,本發明提供一種網絡輿情文本信息推薦及可視化方法,能夠準確、全面、快速的為用戶推薦輿情信息。
本發明解決其技術問題所采用的技術方案是:
一種網絡輿情文本信息推薦及可視化方法,包括以下步驟:
步驟1、構建地理位置信息、網絡媒體地域信息的知識庫,構建地理位置信息知識庫包括國、省、市、區、縣、鎮、村的地理位置信息,構建為樹狀結構,根節點為中國;
步驟2、通過深度學習,將構建的知識庫進行預處理,對網絡輿情文本內容進行準確的地理位置信息的識別;
步驟3、通過垂直細分領域的主題模型,對預處理的文本信息進行匹配聚類與過濾;
步驟4、對步驟3中統計文本信息,使用FM算法進行排序,展現過濾后得到的文本信息。
進一步地,所述步驟2中預處理具體為:
a1、訓練BILSTM+CRF模型,對文本內容中進行實體識別,標注出地名,進行地名識別;
a2、如果地名在地理信息數據庫中查詢,只存在1個節點,則結束;
a3、如果地名存在歧義,通過文本的數據來源,結合網絡媒體地域信息知識庫進行推理;
a4、針對無地域信息的文本數據,如果文本內容中地名出現個數大于1,根據這些地址在樹狀結構的節點分布,根據各個節點距地的總和最小的原則,推理出地名的準確信息。
進一步地,所述步驟3具體為:
b1、將預處理的信息,進行垂直細分領域劃分;
b2、通過多個垂直領域的主題模型,長文本用LDA模型,短文本用Sentence LDA,得到該文本的主題分布;
b3、將用戶關心的事件進行主題分布,與文本的主題分布的匹配程度進行聚合,將長文本和短文本分開處理,得到用戶關注的文本主題分布;
b4、對文本信息進行過濾,計算得到的用戶關注的文本主題分布和主題模型中的文本主題分布的Hellinger Distance距離,設置閾值,低于閾值的數據,不會匹配到用戶。
進一步地,所述步驟4具體為:
c1、依據文本信息的發布時間屬性,統計一定時間間隔內文本所在聚類過濾后的文本的來源信息;
c2、用情感計算的方法,計算該類別下文本的平均情感強烈程度;
c3、根據文本的情感強度,采用FM算法對文本信息進行實時動態排序并展現。
進一步地,所述步驟4中FM算法進行運算時具體根據下述任一因素或下述因素的任意組合:文本信息的情感強烈程度、數據來源、給定時間間隔內相似文本傳播量、傳播數量增長幅度。
與現有技術相比,本發明的有益效果是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢烽火普天信息技術有限公司,未經武漢烽火普天信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710750370.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于人工智能的搜索方法和裝置
- 下一篇:一種數據處理方法及系統
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





