[發(fā)明專利]一種基于Ap增量聚類和網(wǎng)絡基元的熱點話題預測方法有效
| 申請?zhí)枺?/td> | 201910076648.X | 申請日: | 2019-01-26 |
| 公開(公告)號: | CN109857869B | 公開(公告)日: | 2021-07-30 |
| 發(fā)明(設計)人: | 吳亞璽;于海陽;楊震 | 申請(專利權)人: | 北京工業(yè)大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06Q10/04;G06Q50/00 |
| 代理公司: | 北京思海天達知識產(chǎn)權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ap 增量 網(wǎng)絡 熱點話題 預測 方法 | ||
本發(fā)明公開了一種基于Ap增量聚類和網(wǎng)絡基元的熱點話題預測方法,獲取推文數(shù)據(jù);推文數(shù)據(jù)預處理;Ap增量聚類的話題發(fā)現(xiàn);基于用戶網(wǎng)絡的網(wǎng)絡基元的熱點話題預測。在基礎上檢測、發(fā)現(xiàn)網(wǎng)絡基元的特征信息,當基元數(shù)量超過指定域值時判斷該話題將可能成為突發(fā)事件,事件趨勢即將可能進入爆發(fā)階段。利用中心向量提取相關術語然后從Lucene索引中檢索相關高相似度的推文。在Ap聚類的基礎上引入了歷史推文術語相似性分析,以擴展Ap聚類中心向量提高增量聚類算法的準確性,使得其能夠更加精準的增量聚類與事件相關的推文集。在此事件聚類事件發(fā)現(xiàn)的基礎上,另辟蹊徑通過構造、發(fā)現(xiàn)、統(tǒng)計用戶信息網(wǎng)絡的網(wǎng)絡基元的特性信息實現(xiàn)對熱點的事件的提前預測和感知。
技術領域
本發(fā)明涉及一種新的熱點話題預測方法,屬于數(shù)據(jù)挖掘技術領域。
背景技術
隨著近年來社交媒體的普及和規(guī)模的上升,更能充分的享受新聞媒體和自媒體帶來的方便與歡樂,但同時也面臨著獲取有用信息越來越來難的困境。在這種情況下很多用的信息都會被淹沒在數(shù)據(jù)的海洋里,因此對于可以從這些數(shù)據(jù)中提取有用信息的系統(tǒng)的需求日益增長。如何獲取想要關注的有用信息、熱點信息,是一個很具有挑戰(zhàn)性的工作。盡早和迅速地確定社交網(wǎng)絡上的緊急熱點話題的爆發(fā)對于及時提醒政府機構和公眾,并采取有效的公共干預措施來說至關重要。例如,當海嘯襲擊亞洲和東非沿海時,立即出現(xiàn)大量信息,預警和爆發(fā)檢測將為政府部署救援部隊提供巨大幫助,爭分奪秒地救助受害者,從而確保生命財產(chǎn)安全。
長期以來,對內(nèi)容豐富的文本文檔的數(shù)據(jù)挖掘技術作為主題檢測和跟蹤(TDT)領域的一部分進行了研究。因為越來越多人使用Twitter和微博作為交流平臺,所以先前被應用于報紙文章和博客文章TDT技術被擴展并適于使用推文執(zhí)行事件檢測。但是由于Twitter和微博短文本的特性,推文長度限制為140個字符,以及由于自發(fā)生成而產(chǎn)生的特殊拼寫和一些特殊符號、經(jīng)常性的新詞出現(xiàn)是現(xiàn)有文本挖掘方法必須要加以增強的主要原因。由于字符長度的限制,人們會故意拼寫錯誤,遵循非傳統(tǒng)的寫作慣例,并縮短長詞。即使他們提到相同的事件,他們也可能以許多不同的方式表達它。所以TDT相關的技術并不適用于短文本領域。
對于這種現(xiàn)狀,本發(fā)明提出了一種基于Ap增量聚類和網(wǎng)絡基元的熱點話題預測方法。本方法在Ap聚類的基礎上,引入了歷史推文術語相似性分析,以擴展Ap聚類中心向量提高增量聚類算法的準確性,使得其能夠更加精準的增量聚類與事件相關的推文集。在此事件聚類事件發(fā)現(xiàn)的基礎上,另辟蹊徑通過構造、發(fā)現(xiàn)、統(tǒng)計用戶信息網(wǎng)絡的網(wǎng)絡基元的特性信息實現(xiàn)對熱點的事件的提前預測和感知。并開發(fā)了RealTIS系統(tǒng)如圖1所示。
發(fā)明內(nèi)容
本發(fā)明主要分為兩部分如圖2所示:
后臺:熱點突發(fā)事件檢測子系統(tǒng)。由于數(shù)據(jù)的異質(zhì)性和數(shù)據(jù)量大,在Twitter實時識別事件是一個具有挑戰(zhàn)的問題。基于此開發(fā)了Ap增量聚類算法并融合術語相似性分析以增量的方式檢測和跟蹤事件的發(fā)生發(fā)展。
前端:突發(fā)事件的警告子系統(tǒng)。發(fā)現(xiàn)事件的爆發(fā)總是與事件形成幾種特定類型的網(wǎng)絡基本結構(圖案)有關。使用滑動時間窗口來計算特定主題的傳播網(wǎng)絡的基本結構(主題)變化的統(tǒng)計數(shù)據(jù)。然后,這些統(tǒng)計數(shù)據(jù)用于識別相關性的異常變化,進行早期預警并檢測爆發(fā)。
本發(fā)明主要分為以下幾步,如圖3所示:
步驟(1)獲取推文數(shù)據(jù)
獲取推文數(shù)據(jù),該數(shù)據(jù)主要由推文id、用戶名、時間戳、文本內(nèi)容等數(shù)據(jù)組成。數(shù)據(jù)通過接入數(shù)據(jù)庫或者利用TwitterAPI方式獲取。每批次采用固定數(shù)量桶或者依照時間和數(shù)量相結合的混合桶的限制方式來獲取數(shù)據(jù)。
步驟(2)推文數(shù)據(jù)預處理
步驟(2.1)把所有接受到的推文數(shù)據(jù),每條一個document添加到Lucene索引中。
步驟(2.2)根據(jù)每條推文中的轉發(fā)和@信息構建轉發(fā)和@用戶關系數(shù)據(jù)庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業(yè)大學,未經(jīng)北京工業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910076648.X/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡管理方法和裝置





