[發明專利]基于字符串字典構建的社交網絡突發事件檢測方法在審
| 申請號: | 201910631329.0 | 申請日: | 2019-07-12 |
| 公開(公告)號: | CN110502703A | 公開(公告)日: | 2019-11-26 |
| 發明(設計)人: | 薛哲;杜軍平;周立巖;崔婉秋 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/35;G06F17/27;G06Q50/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 突發事件 字符串字典 關聯用戶 字符串 微博 標簽 詞頻 突發事件檢測 標題標記 單詞頻率 社交網絡 中文分詞 啟發式 中文 帖子 構建 熱度 單詞 排序 抽取 關聯 檢測 話題 評論 | ||
本發明提出一種基于字符串字典構建的社交網絡突發事件檢測方法。為了利用微博標簽的特點和中文標題標記的特點,抽取微博話題標簽和中文標題中的有意義的字符串作為作為一種啟發式方法用于中文分詞。結合有意義字符串字典和突發詞得分的計算,突發詞檢測考慮了有意義字符串、單詞長度、單詞頻率、關聯用戶和評論數量等因素。在此基礎上,進一步建立了突發事件的計算熱點模型,利用突發事件的詞頻、關聯用戶和關聯帖子的熱度等指標對突發事件進行排序。
技術領域
本發明屬于事件檢測領域中的短文本突發事件檢測技術,主要涉及突發詞檢測、突發詞聚類和突發事件排序技術,實現社交網絡突發事件的檢測。
背景技術
微博作為一種實時互動的社交網絡媒體,為用戶提供了一個自由發布內容和交換信息的平臺。它已經成為人們揭露事件、表達意見和分享經驗的首選媒體。很多真實世界的事件都是首先在微博上曝光,再由傳統主流媒體報道,比如2018年的滴滴風車事件和重慶公交車墜河事件。基于微博的突發事件檢測已成為數據挖掘和機器學習領域的研究熱點。
然而,從社交網絡上發現突發事件還存在一些挑戰。首先,微博帖子通常很短,內容也很豐富,如何從帖子中有效提取事件是極具挑戰性的。其次,在微博上有很多普遍的、無意義的噪聲,如日常會話等。如何過濾這些噪聲是一個很重要的問題。第三,由于不同的事件可能有一些共享的主題組件,所以不同事件之間的相似性很高。如何區分不同的事件也是一個棘手的問題。因此,區分突發事件和非突發內容值得研究。
發明內容
提出了一種基于字符串字典構建的社交網絡突發事件檢測方法。為了利用社交網絡微博標簽的特點和中文標題標記的特點,抽取微博話題標簽和中文標題中有意義的字符串作為作為一種啟發式方法用于中文分詞。結合有意義字符串字典和突發詞得分的計算,突發詞檢測考慮了有意義字符串、單詞長度、單詞頻率、關聯用戶和評論數量等因素。在此基礎上,進一步建立了突發事件的計算熱點模型,利用突發事件的詞頻、關聯用戶和關聯帖子的熱度等指標對突發事件進行排序。
構建一個有意義字符串字典以利用微博標簽的特點和中文標題標記的特點。提取“#”與“引號”之間的有意義字符串,作為漢語分詞的一種啟發式方法。結合有意義字符串字典和突發詞得分的計算,用以檢測突發詞,以提取與突發事件更相關、描述性更強的詞匯。提出一種基于字符串字典構建的社交網絡突發事件檢測方法,該方法具有更高的準確性,描述事件更清晰易懂。
附圖說明
圖1為方法流程圖
具體實施方式
為使本發明的目的、技術方案及算法優點更加清楚明白,下面參照附圖對本發明做進一步詳細地說明。
我們的突發事件檢測方法分為兩部分:基于意義字符串字典的突發詞檢測、突發詞聚類與突發事件排序。
1、基于有意義字符串字典的突發詞檢測
基于有意義字符串字典的突發詞檢測包括兩個部分:有意義字符串字典的構建和突發詞得分的計算。為了提高突發性詞檢測的性能,采用一對“#”和一對引號之間的有意義字符串作為漢語分詞的啟發式方法,計算突發性詞得分后對它們進行加權。在計算詞的突發項得分時,減少評語數量的影響和權衡較長的詞也是兩個增強技巧。有意義字符串提取步驟如下:
步驟一:對于博文數據集中的每一篇博文,使用正則表達式抽取博文中的hashtags和標題,將hashtags/標題加入集合HT;
步驟二:對于集合HT中每一個hashtag/標題,將hashtag/標題分割成詞,過濾停用詞并將余下詞加入集合W;
步驟三:將W中在HT中毗連的詞連接起來直到沒有任意兩個詞毗連得到有意義串字典MSD。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910631329.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用戶行為預測方法以及裝置
- 下一篇:一種基于注意力機制的群組推薦方法及系統





