[發明專利]一種基于組合優化決策樹的網絡偽輿情識別方法在審
| 申請號: | 201710839631.6 | 申請日: | 2017-09-18 |
| 公開(公告)號: | CN107742256A | 公開(公告)日: | 2018-02-27 |
| 發明(設計)人: | 高萬林;康博涵;賈敬敦;于麗娜;陶莎;仲貞 | 申請(專利權)人: | 中國農業大學 |
| 主分類號: | G06Q50/00 | 分類號: | G06Q50/00;G06F17/30;G06K9/62 |
| 代理公司: | 北京路浩知識產權代理有限公司11002 | 代理人: | 王瑩,李相雨 |
| 地址: | 100193 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 組合 優化 決策樹 網絡 輿情 識別 方法 | ||
技術領域
本發明涉及互聯網技術領域,更具體地,涉及一種基于組合優化決策樹的網絡偽輿情識別方法。
背景技術
隨著信息技術、移動互聯、智能手機等技術的發展,網絡成為大眾輿情的主要載體并以前所未有的深度、廣度和速度影響著人們生活的各個方面。網絡輿情不僅是人們對某些事件、話題、觀點的反應,同時也對人們的思想和行為有著巨大的影響和反作用。而偽輿情是指在諸如網絡推手炒作或虛假信息刺激等手段的推動下,使民眾產生的帶有傾向性的多種評論、情緒、態度、意見的總和。偽輿情利用網絡的影響力和人們的從眾心理,掀起網絡謠言,歪曲事實真相,混淆視聽,對正常的網絡生活造成了負面的影響,甚至造成社會恐慌和危機。因此如何盡早識別偽輿情,科學監督控制網絡輿論健康發展是輿情管理面臨的嚴峻問題。
國內外相關研究主要集中在網絡輿情分析技術上,很少涉及虛假網絡輿情分析和識別問題。對于網絡輿情分析技術,現主要是基于內容的輿情分析方法,采用網絡文本分析技術對網絡論壇熱點話題進行檢測,這種方法需要借助于文字信息處理平臺對文本內容進行分析,數據處理量大,處理效率低,不適合于對網絡水軍所引發的大規模虛假網絡輿情的識別和監測。
發明內容
本發明提供一種克服現有技術中對網絡輿情的分析識別處理效率低的網絡偽輿情識別方法。
根據本發明的一個方面,提供一種基于組合優化決策樹的網絡偽輿情識別方法,所述方法包括:
S1,獲取網絡輿情事件的輿情屬性集合,其中,所述輿情屬性集合包括首發媒介、轉發媒介種類及個數、總發帖數、48小時發帖數、一周發帖數、持續時長、觀點數、最大觀點占比和轉發數中的一個或多個;
S2,將所述輿情屬性集合中的至少一種輿情屬性對應的輿情屬性值,輸入至決策樹模型中,獲取所述網絡輿情事件的識別結果。
優選地,步驟S2中所述決策樹模型通過以下步驟獲取:
S21,獲取多個輿情樣本事件,每個所述輿情樣本事件包含所述輿情屬性集合;
S22,將所述多個輿情樣本事件隨機分為訓練集和測試集,所述訓練集和所述測試集均包含至少一個所述輿情樣本事件;
S23,根據所述訓練集中的所有輿情樣本事件的輿情屬性集合,建立所述決策樹模型。
優選地,步驟S23具體包括:
S231,利用基于邊界點屬性值合并和不一致度檢驗的離散化算法,將所述訓練集中的所有輿情樣本事件的連續輿情屬性離散化為離散輿情屬性;
S232,根據所述訓練集中的所有輿情樣本事件的離散輿情屬性和定性輿情屬性,利用輸入輸出關聯法建立所述決策樹模型。
優選地,步驟S231具體包括:
S2311,基于所述訓練集中的所有輿情樣本事件的每一個連續輿情屬性,以所述每一個連續輿情屬性的邊界點的屬性值為切點分割對應的連續輿情屬性的屬性值,獲取所述每一個連續輿情屬性的第一離散輿情屬性區間集合;
S2312,合并所述每一個連續輿情屬性的第一離散輿情屬性區間集合中的臨界點,獲取所述每一個連續輿情屬性的第二離散輿情屬性區間集合;
S2313,合并所述每一個連續輿情屬性的第二離散輿情屬性區間集合中的少數點區間,獲取所述每一個連續輿情屬性的第三離散輿情屬性區間集合;
S2314,若任一所述第三離散輿情屬性區間集合的不一致度高于所述不一致度閾值,則調整所述任一所述第三離散輿情屬性區間集合,直至調整后的第三離散輿情屬性區間集合的不一致度低于所述不一致度閾值。
優選地,步驟S2314中所述調整所述第三離散輿情屬性區間集合為:對所述少數點區間進行恢復。
優選地,步驟S232具體包括:
S2321,在所述訓練集中的所有輿情樣本事件中,獲取每一輿情屬性的歸一化輸入輸出關聯值;
S2322,選取所述歸一化輸入輸出關聯值較大的一個或多個所述輿情屬性作為基本輿情屬性集合,其余輿情屬性作為備選輿情屬性集合;
S2323、根據所述基本輿情屬性集合和備選輿情屬性集合,以所述歸一化輸入輸出關聯值為節點輿情屬性選擇標準,建立所述決策樹模型。
優選地,步驟S2321中所述獲取每一輿情屬性的歸一化輸入輸出關聯值,具體包括:
當所述輿情屬性為定量輿情屬性時,獲取所述定量輿情屬性的歸一化輸入輸出關聯值的公式為,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國農業大學,未經中國農業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710839631.6/2.html,轉載請聲明來源鉆瓜專利網。





