[發明專利]基于微博的事件相似性度量方法及系統有效
| 申請號: | 201310529304.2 | 申請日: | 2013-10-30 |
| 公開(公告)號: | CN103530421B | 公開(公告)日: | 2017-01-04 |
| 發明(設計)人: | 鄧鐳;賈焰;鄒鵬;楊樹強;周斌;韓偉紅;李愛平;韓毅;李莎莎 | 申請(專利權)人: | 中國人民解放軍國防科學技術大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司11280 | 代理人: | 王勇 |
| 地址: | 410073 湖南省長沙*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 事件 相似性 度量 方法 系統 | ||
技術領域
本發明涉及文本挖掘和話題發現與跟蹤領域,尤其涉及一種基于微博文本數據的事件相似性度量方法。
背景技術
近年來,以微博為代表的Web2.0新媒體已經深入到人們生活的各個角落。無論何時何地,人們都可以通過發微博來記錄和分享自己的經歷和感受。雖然微博的類型多種多樣,有些甚至不包含任何實質的信息,但有更大比例的微博都是在描述和記錄用戶身邊發生的事件。因此對于那些無法親身經歷的事件,都可以從微博中管中窺豹。
現實中每時每刻都在發生著事件,事件通過人的感受、記憶、分析,形成了片段性的文字描述,微博用戶將這些文字記錄在微博中。這一過程實際上完成了事件從現實世界向微博空間的映射。在微博中研究話題或事件的發現便是要在微博空間中找到現實世界事件的“像”。
如果將人比作事件傳感器的話,那么其實“部署”在現實世界的傳感器是非常多的,當一個事件發生后,一般有多于一個傳感器感知到事件的存在,如果他們都對此事件進行了記錄,那么在微博中就會出現關于此現實事件的多個“像”。另一方面,即使是同一個傳感器,也不一定只發表一篇微博描述此事件。因此,在微博平臺中需要一種判斷多個事件的“像”是否表征了同一事件的方法,進一步判斷多個事件間的相似度。
傳統的文本信息事件相似性度量方法是建立在“詞袋模型”概率特征基礎上的度量方法,即將每個描述了事件的文本看作詞匯的集合。一些位置敏感的方法還會對詞匯出現的位置進行區分。然后計算各個詞匯的特征值。常采用的計算詞匯特征值方法例如二值法,即存在詞匯記為1,不存在則為0。在信息檢索領域還常用TFIDF(term?frequency–inverse?document?frequency詞頻-逆文檔頻率)的方法來計算詞匯的特征值,該方法統計詞匯在單一文本中出現的頻率和在全部文檔中出現的頻率,利用二者的比值作為詞匯的特征值;最后,由于將多個文檔表示成了詞匯和特征值對的集合,因此可以把每篇文檔看做一個向量,計算文檔向量間兩兩的歐拉距離或余弦夾角等來衡量文檔間的相似度,也即事件間的相似度。
上述的方法是文本分析的經典方法,但不能滿足對于微博的事件相似性度量。微博有其自身的特點,在微博中事件在不斷地演化和傳播。用戶發表了一篇描述事件的微博。隨著時間增加,越來越多的用戶通過轉發和評論上述微博參與到事件的描述中來,微博不斷積累,事件的描述信息也越來越豐富。因此需要一種基于微博的事件相似性度量方法。
發明內容
因此,本發明的目的在于克服上述現有技術的缺陷,提供一種基于微博的事件相似性度量方法。
本發明的目的是通過以下技術方案實現的:
一方面,本發明提供了一種基于微博的事件相似性度量方法,包括:
步驟1,對于兩條給定的原創微博中的每一條:獲取在給定時刻前對該原創微博的所有轉發和評論的微博,并以該原創微博為根節點,構造該原創微博的傳播樹;傳播樹中每個節點對應一條微博,傳播樹中的邊代表微博間的轉發/評論關系;
步驟2,計算兩條原創微博的傳播樹的關注用戶集的相似度;所述傳播樹的關注用戶集是傳播樹中每個節點對應的微博的作者所關注的用戶的并集;
步驟3,計算兩條原創微博的傳播樹的詞匯向量的相似度;所述傳播樹的詞匯向量為傳播樹中每個節點對應的微博的詞袋的并集;
步驟4,基于原創微博的傳播樹的詞匯向量的相似度、傳播樹的關注用戶集的相似度和/或傳播樹的時間相似度來獲取所述兩條原創微博所指示的事件相似度。
上述方法中,所述步驟1還可包括沿傳播樹檢測相鄰兩節點對應的微博的相關度,如果傳播樹中兩相鄰節點對應的微博的相關度低于話題漂移閾值,則在傳播樹中刪除這兩節點間的邊以及該邊后續的所有分支。
上述方法中,所述步驟2中兩條原創微博的傳播樹的關注用戶集的相似度可以如下公式計算:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科學技術大學,未經中國人民解放軍國防科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310529304.2/2.html,轉載請聲明來源鉆瓜專利網。





