[發明專利]一種基于文本機器學習的輿情走向預測方法在審
| 申請號: | 201810143913.7 | 申請日: | 2018-02-12 |
| 公開(公告)號: | CN108363784A | 公開(公告)日: | 2018-08-03 |
| 發明(設計)人: | 張怡;張璐璐;唐成凱;張玲玲;何怡;萬志剛 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 陳星 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞語 機器學習 目標詞語 文本 預測 變化軌跡 傳播路徑 繪制事件 媒體消息 新聞內容 訓練機器 分詞 權重 網民 過濾 清洗 篩選 互聯網 統計 學習 | ||
1.一種基于文本機器學習的輿情走向預測方法,其特征在于:包括以下步驟:
步驟1:采用中文分詞工具對采集的新聞文本進行分詞;
步驟2:對于通過步驟1得到的每個文本中詞語,采用TF-IDF方法獲得每個詞語的權值,并將權值較大的m個詞語作為文本的核心特征詞,核心特征詞組成文本的特征向量;
步驟3:依據每個文本的特征向量,采用以下過程將描述同類事件的文本聚類:
步驟3.1:隨機挑選k個文本的特征向量作為初始的聚類中心;
步驟3.2:計算其余文本的特征向量到聚類中心的距離,將其余文本的特征向量聚類到距離最近的聚類中心,得到k個聚類;
步驟3.3:根據k個聚類中,每個聚類中的文本的特征向量,重新計算k個聚類中心;
步驟3.4:重新計算k個文本的特征向量到聚類中心的距離,將k個文本的特征向量聚類到距離最近的聚類中心,再次得到k個聚類,并根據k個聚類中,每個聚類中的文本的特征向量,重新計算k個聚類中心;
步驟3.5:判斷以下條件是否滿足:
1)、每個聚類中的文本的特征向量沒有變化;
2)、每個聚類的中心沒有變化;
若任一條件得到滿足,則進入步驟4,否則返回步驟3.4;
步驟4:選擇聚類中文本數量達到設定閾值的聚類作為重點事件集;將重點事件集中出現的所有詞語以及詞語在重點事件集中出現的頻數組成重點事件集的特征矩陣
其中M為重點事件集中出現的詞語數;hi表示重點事件集中的第i個詞語,ni表示第i個詞語的頻數;
步驟5:在重點事件集中挑選頻數較高的m個詞作為重點事件集的特征向量,通過TF-IDF方法獲得重點事件集的特征向量中每個詞的權重,并組成重點事件集的權重向量θ;
步驟6:利用互信息法計算重點事件集的特征向量與現有情感詞典中基準詞之間的關聯度R,得到重點事件集特征向量的情感傾向值W=Rθ;給定閾值δ,若W>δ,則重點事件集為正面傾向,否則重點事件集為負面傾向;
步驟7:建立并訓練分類器,其中訓練樣本為重點事件集的特征矩陣和重點事件集所在時間段內的情感傾向,將得到的分類器作為預測模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810143913.7/1.html,轉載請聲明來源鉆瓜專利網。





