[發明專利]基于時間序列的話題發展聚類分析系統和方法有效
| 申請號: | 201710071763.9 | 申請日: | 2017-02-09 |
| 公開(公告)號: | CN108415910B | 公開(公告)日: | 2021-03-05 |
| 發明(設計)人: | 殷復蓮;張貝貝;劉曉薇;蘇沛;王顏顏;白雪松 | 申請(專利權)人: | 中國傳媒大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/9536;G06Q50/00 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 陳英俊;楊樺 |
| 地址: | 100024 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 時間 序列 話題 發展 聚類分析 系統 方法 | ||
1.一種基于時間序列的話題發展聚類分析系統,其特征在于,包括:
數據采集部,采用預定采集周期從網絡、微博上采集話題,所述話題包括話題URL、話題名稱、累計閱讀量時間序列,其中,所述累計閱讀量時間序列為不同采集時間對應的話題累計閱讀量構成的時間序列;
數據處理部,包括差分模塊、第一判斷模塊、第一話題存儲庫和第二話題存儲庫,所述差分模塊對每一個話題的累計閱讀量時間序列進行前向差分得到每一個話題的話題熱度時間序列,所述第一判斷模塊根據所述話題熱度時間序列判斷話題是否處于衰退期,將不處于衰退期的話題存儲到第一話題存儲庫,將處于衰退期的話題存儲到第二話題存儲庫;
時間序列距離計算部,包括分段模塊、時間序列距離計算第一模塊和時間序列距離計算第二模塊,所述分段模塊對每一個話題熱度時間序列按照自然日進行分段,所述時間序列距離計算第一模塊和時間序列距離計算第二模塊分別計算各話題之間的分段歐式距離S-Euc和分段動態彎曲距離S-DTW;
話題聚類部,基于各話題之間S-Euc和S-DTW采用聚類方法對所有話題進行聚類,
其中,所述時間序列距離計算第一模塊包括第一天數計數單元、第一判斷單元、第一時間段劃分單元、對齊單元和第一距離計算單元,所述第一天數計數單元計算任意兩個話題的話題熱度時間序列持續的天數;所述第一判斷單元判斷兩個話題熱度時間序列的持續的天數是否相同,如果相同,發送第一信號給對齊單元,如果不相同,發送第二信號給第一時間段劃分單元;所述第一時間段劃分單元接收到第二信號后,將兩個話題熱度時間序列分成三個時間段并發送第三信號給對齊單元,第一時間段為第一天至較短話題持續天數的前一天,第二時間段為較短話題持續天數的當天,第三時間段為較短話題持續天數的后一天至較長話題持續天數;所述對齊單元收到第一信號時,采用0填充對齊兩個話題熱度時間序列第一天和最后一天的數據,并發送第四信號給第一距離計算單元,所述對齊單元收到第三信號時,采用0填充對齊兩個話題熱度時間序列第一天的數據以及較短的話題熱度時間序列最后一天的數據,并發送第五信號給第一距離計算單元;所述第一距離計算單元接收第四信號后,計算對齊后兩個話題熱度時間序列的S-Euc,所述第一距離計算單元接收第五信號后,按照第一時間段劃分單元劃分的三個時間段分段計算兩個話題熱度時間序列的時間序列距離,將三個時間段的時間序列距離相加得到兩個話題的S-Euc,
其中,所述時間序列距離計算第二模塊包括第二天數計數單元、第二判斷單元、第二時間段劃分單元和第二距離計算單元,其中,所述第二天數計數單元計算任意兩個話題的話題熱度時間序列持續的天數;所述第二判斷單元判斷兩個話題熱度時間序列的持續的天數是否相同,如果相同,發送第六信號給第二距離計算單元,如果不相同,發送第七信號給第二時間段劃分單元;所述第二時間段劃分單元接收到第七信號后,將兩個話題熱度時間序列分成兩個時間段并發送第八信號給第二距離計算單元,第一時間段為第一天至較短話題持續天數當天,第二時間段為較短話題持續天數的后一天至較長話題持續天數;所述第二距離計算單元接收第六信號后,計算兩個話題熱度時間序列的S-DTW,所述第二距離計算單元接收第八信號后,按照時間段劃分單元劃分的兩個時間段分段計算兩個話題熱度時間序列的時間序列距離,將兩個時間段的時間序列距離相加得到兩個話題的S-DTW。
2.根據權利要求1所述的聚類分析系統,其特征在于,還包括:聚類效果評價部,根據至少一個聚類效果評定指標確定最佳聚類個數,包括:輪廓系數評價單元,計算每一次聚類的輪廓系數,得到輪廓系數隨聚類個數變化的曲線,將輪廓系數極大值或最大值對應的聚類個數作為最佳聚類個數,與輪廓系數極大值或最大值對應的聚類結果作為所有話題的聚類結果。
3.根據權利要求2所述的聚類分析系統,其特征在于,所述聚類效果評價部還包括聚簇緊密性評價單元,當輪廓系數極大值對應的聚類個數有多個時,選擇聚簇緊密性大的聚類個數作為最佳聚類個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國傳媒大學,未經中國傳媒大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710071763.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種訪問不同數據庫的系統及方法
- 下一篇:基于企業云盤的數據文檔按需同步方法





