[發明專利]一種基于文本機器學習的輿情走向預測方法在審
| 申請號: | 201810143913.7 | 申請日: | 2018-02-12 |
| 公開(公告)號: | CN108363784A | 公開(公告)日: | 2018-08-03 |
| 發明(設計)人: | 張怡;張璐璐;唐成凱;張玲玲;何怡;萬志剛 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 陳星 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞語 機器學習 目標詞語 文本 預測 變化軌跡 傳播路徑 繪制事件 媒體消息 新聞內容 訓練機器 分詞 權重 網民 過濾 清洗 篩選 互聯網 統計 學習 | ||
本發明提出一種基于文本機器學習的輿情走向預測方法。具體來說,就是對當前互聯網上大量的社交媒體消息、新聞內容等信息進行分詞、清洗、過濾等處理后,提取某些事件詞語,并統計這些事件詞語在某段時間出現的頻次,根據詞語的權重篩選出對應文本中的目標詞語以及繪制事件詞語頻次的變化軌跡,通過目標詞語提取網民觀點,判斷輿論傳播路徑等,進而利用這些觀點數據來訓練機器學習模型。最終利用訓練好的模型來預測未來一段時間的輿情走向。
技術領域
本發明屬于自然語言處理中文本機器學習領域,具體為一種基于文本機器學習的輿情走向預測方法。
背景技術
在大數據時代,互聯網輿情信息變得更為復雜繁瑣,而且信息傳播渠道快速裂變,信息處理的時效性需求更強,以至于幾乎無法通過傳統的、人工的手段來及時、全面地掌握、跟蹤、分析和輔助輿情決策。“數據爆炸”、“信息超載”使得政府和各行各業對輿情預測的需求不斷上升,在這樣的市場背景下,輿情預測行業成為很有“技術含量”的陽光產業。
目前,網絡輿情分析方法主要是將信息處理方法與傳統領域特有的技術分析方法相結合,重采集和處理,輕分析,盡管目前已經開始研究如何借助于計算機工具實現網絡輿情分析,但大部分研究主要從文本層次對網絡輿情外部特征進行簡單的零碎統計處理,沒有深入分析網絡輿情信息內容中所隱含的知識邏輯關聯和輿情傳播趨勢的關系,從而影響了網絡輿情分析的效果和結果信度。
發明內容
為解決現有技術存在的問題,本發明提出一種基于文本機器學習的輿情走向預測方法。具體來說,就是對當前互聯網上大量的社交媒體消息、新聞內容等信息進行分詞、清洗、過濾等處理后,提取某些事件詞語,并統計這些事件詞語在某段時間出現的頻次,根據詞語的權重篩選出對應文本中的目標詞語以及繪制事件詞語頻次的變化軌跡,通過目標詞語提取網民觀點,判斷輿論傳播路徑等,進而利用這些觀點數據來訓練機器學習模型。最終利用訓練好的模型來預測未來一段時間的輿情走向。
本發明以網絡社交媒體、論壇、微博信息以及時政相關的新聞文本為研究對象,從自然語言處理的角度出發,來研究社交媒介、時政新聞文本中詞匯與輿情走向變化的相關性,即:“詞匯-輿情走向”相互關聯。這一關聯性問題被形式化為:輿情事件相關的詞匯出現,會導致網民對該事件的態度轉變,從而導致輿情走向發生變化。利用機器學習的方法來分析熱點事件新聞文本,訓練回歸、預測分析模型。熱點事件新聞文本被標示成詞匯的集合,這些詞匯每天隨著網民的言論走向不斷更新變化,也就是文本中詞匯及詞匯的頻率不斷變化,即:詞語動態特性,利用詞匯的動態特性抽取那些與輿情走向波動有較高關聯性的詞語(highly-index-correlated term,HICT),其中HICT詞的識別是通過分析詞語包含的信息量及其在時間序列上的頻率分布方法來完成,以HICT詞權重值作為特征,訓練輿情走勢預測和指數回歸分析模型。通過以上模型對互聯網輿情走向進行預測和網民輿論觀點等進行回歸分析。
本發明對大量社交媒體新聞內容進行7*24全網監測,分詞、清洗、過濾等處理,統計各文本中的詞匯在固定時間間隔內出現的次數,利用TF-IDF計算方法,計算出文本中詞匯的權重值。將權重較高的詞語組成文本的特征向量,通過特征向量把每個文本定義為一個事件,然后將描述同類事件的文本聚類成重點事件集,把重點事件集中的詞語以及它所對應的頻數放到一個M×2維矩陣中,并對網民輿論觀點的走向進行標記,利用機器學習方法來訓練預測模型。
本發明的技術方案為:
所述一種基于文本機器學習的輿情走向預測方法,其特征在于:包括以下步驟:
步驟1:采用中文分詞工具對采集的新聞文本進行分詞;
步驟2:對于通過步驟1得到的每個文本中詞語,采用TF-IDF方法獲得每個詞語的權值,并將權值較大的m個詞語作為文本的核心特征詞,核心特征詞組成文本的特征向量;
步驟3:依據每個文本的特征向量,采用以下過程將描述同類事件的文本聚類:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810143913.7/2.html,轉載請聲明來源鉆瓜專利網。





