[發明專利]一種基于顯著性圖的情感時間序列異常檢測方法有效
| 申請號: | 202110474305.6 | 申請日: | 2021-04-29 |
| 公開(公告)號: | CN113127716B | 公開(公告)日: | 2023-07-28 |
| 發明(設計)人: | 商琳;吳靜怡 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9536;G06F16/33;G06F16/35;G06Q50/00 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華;于瀚文 |
| 地址: | 210023 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 顯著 情感 時間 序列 異常 檢測 方法 | ||
本發明提供了一種基于顯著性圖的情感時間序列異常檢測方法,包括:(1)獲取社交平臺中的話題文本數據,生成對應的原始情感時間序列曲線;(2)對原始情感時間序列進行分解,保留序列殘差項;(3)對序列殘差項兩端的部分未知數據進行預測和補充,得到待測時間序列;(4)劃分待測時間序列,利用譜殘差方法生成時間子序列的顯著性圖;(5)根據顯著性圖確定異常判定結果。
技術領域
本發明涉及一種基于顯著性圖的情感時間序列異常檢測方法。
背景技術
隨著網絡社交平臺的迅速發展,人們逐漸形成了在網絡平臺中表達對熱點事件的觀點態度的習慣,海量與事件相關的文本數據在社交平臺中迅速涌現。通過挖掘用戶發布的關于特定話題的文本數據,能夠了解用戶的立場和態度,幫助政府、公司等組織制定和實施相關的決策。
情感時間序列由歸屬于各個時間片的文本集合的累積情感值按照時間順序連接而成,是一種能夠將文本數據形式化為時間序列的有效工具。情感時間序列能夠反映用戶情感隨時間變化的特點,通過分析序列中的變化模式,能夠對引起用戶情感變化的關鍵事件進行挖掘。
基于情感時間序列的異常檢測存在許多挑戰。對于情感時間序列而言,異常點比例往往較小,序列頻率較低,長度較短,異常點總數量較少。由于缺少標簽數據,有監督的異常檢測方法在這類問題中難以適用。此外,和大多數異常檢測問題一樣,異常點與非異常點的數量間還存在類別不平衡問題。先前的工作中對于情感變化和事件的關聯性分析都較為簡單,例如僅依據明顯的短期上升或下降趨勢,或人為挑選出部分尖峰點分析與現實事件的關聯性,少有將數據挖掘算法應用于情感時間序列分析過程的方法。
發明內容
發明目的:本發明的目的在于提出一種基于顯著性圖的情感時間序列異常檢測方法,提升檢測的準確性。
發明步驟:本發明的步驟包括:1)爬取社交平臺中的話題文本數據并進行預處理;2)對文本進行情感分類,生成原始情感時間序列曲線;3)對原始情感時間序列進行分解保留殘差項,并對兩端的部分未知數據進行預測和補充;4)劃分時間序列,利用譜殘差方法生成時間子序列的顯著性圖,根據顯著性圖確定異常判定結果。具體的步驟如下:
包括如下步驟:
步驟1,獲取社交平臺中的話題文本數據,生成對應的原始情感時間序列曲線;
步驟2,對原始情感時間序列進行分解,保留序列殘差項;
步驟3,對序列殘差項兩端的未知數據進行預測和補充,得到待測時間序列;
步驟4,劃分待測時間序列,利用譜殘差方法生成時間子序列的顯著性圖;
步驟5,根據顯著性圖確定異常判定結果。
步驟1:
步驟1-1,按照預先設定的時間跨度和話題關鍵詞,從社交平臺的關鍵詞搜索結果頁面中爬取文本數據,保存在本地數據庫中;
步驟1-2,采用基于規則的方法對無效文本和重復文本進行過濾;
步驟1-3,采用基于分類模型的方法對無關和中立文本進行過濾;
步驟1-4,按照預設的時間片長度劃分時間區間,將文本按照發表時間劃分到不同的時間片中,每個時間片對應一個文本集合;
步驟1-5,基于情感分類器得到每條文本的情感值,對每個時間片所屬文本集合的情感值進行累加,作為該時間片的對應情感值;
步驟1-6,將各時間點對應的情感值按照時間先后順序連接得到原始情感時間序列曲線。
步驟1-1包括:
所述預先設定的時間跨度和話題關鍵詞根據實際數據挖掘任務背景人為設定。
步驟1-2包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110474305.6/2.html,轉載請聲明來源鉆瓜專利網。





