[發明專利]基于時間衰減因子的文本實時聚類方法在審
| 申請號: | 202010562915.7 | 申請日: | 2020-06-19 |
| 公開(公告)號: | CN111797235A | 公開(公告)日: | 2020-10-20 |
| 發明(設計)人: | 張步良;劉袁靜;張麒;魏選明;魏剛;蒲存偉 | 申請(專利權)人: | 成都融微軟件服務有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京科石知識產權代理有限公司 11595 | 代理人: | 徐紅崗 |
| 地址: | 610000 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 時間 衰減 因子 文本 實時 方法 | ||
一種基于時間衰減因子的文本實時聚類方法,依據文本的發布時間和發布平臺確定文本的初始聚類熱度,并根據時間的推移不斷衰減,以此作為文本數據的聚類排序依據。充分體現了大數據領域中新聞話題類文本的熱度價值與時效性的密切關系,使后續的新聞過濾、信息篩選更加方便,明顯提高了聚類的性能;算法設計簡單有效,特別適用于新聞類時效性強的海量流式文本的聚類處理。
技術領域
本發明涉及大數據處理領域,特別涉及一種基于時間衰減的文本實時聚類方法。
背景技術
文本聚類是聚類分析在文本文檔中的應用,依據特征詞對文本進行分組,將特證詞相近的文本分成一個簇,從而挖掘文本之中有效信息。它在新聞過濾、話題檢測及跟蹤、用戶特征推薦、快速信息檢索、文檔分組等方面有著廣泛的應用。
針對互聯網媒體不斷增加的新聞報道,以及網民的言論信息,這些文本數據具有維度高、數據量大等特點,運用早先的串行文本聚類分析,難以高效的對大規模文本數據進行實時處理,無法滿足高性能、低成本的處理需求,所以目前更先進的做法是對這類文本進行分布式實時聚類。而新聞類文本信息的另一特點是隨著時間的推移,新聞報道的頻率減少,網民關注度降低。
發明內容
本公開提供一種基于時間衰減因子的文本實時聚類方法,其能夠實現文本數據關注熱度隨時間不斷衰減,特別適合新聞話題類時效性強的大規模流式文本數據的聚類分析。
本公開提供一種基于時間衰減因子的文本實時聚類方法,包括以下步驟:
對采集到的流式文本數據,按照設定的條件分發到不同的結點;
各個結點對到達的文本數據進行實時聚類;
根據文本的發布時間和發布平臺等因素的權重值,計算每條文本的聚類熱度初始值;
計算所述實時聚類得到的各個聚類類別的聚類熱度總得分值;
每隔一段時間,對每條文本的聚類熱度得分值及每個類別的總得分值進行時間衰減計算,并更新保存。
可選的,所述實時聚類采用singlepass單遍聚類方法。
可選的,所述聚類熱度初始值計算方法為:S=w1*Ts+w2*Ps,其中,w1和w2分別表示發布時間和平臺的影響權重值,Ts表示發布時間的得分值,Ps表示平臺的得分值。
可選的,所述發布時間得分值Ts的其計算方法為
其中,Ti為設定的時間范圍,t為當前時間,T為該條文本發布時間。
可選的,所述發布平臺得分值Ps的計算方法為:
如果文本的發布平臺是新聞媒體,其平臺的得分值Ps計算方法為
其中,pn為評論、點贊、回復、轉發數量,th為設定的評論等數量閾值,newsdefault為新聞平臺類的默認分值;
如果文本的平臺是社交媒體,其得分值計算方法為:
其中,social_default為社交平臺類的默認分值。
可選的,所述各個聚類類別的聚類熱度總得分值計算方法為:
Zs=S1+S2+...+Sn
其中,n為該聚類類別中文本信息的總數量,S1、S2、...、Sn分別為每條文本信息的初始得分值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都融微軟件服務有限公司,未經成都融微軟件服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010562915.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:密封隔熱的新型節能門窗
- 下一篇:一種新型羊毛紡織品洗毛加工用廢水處理格柵





