[發明專利]基于社會媒體平臺上社會事件的跟蹤方法在審
| 申請號: | 201611260200.6 | 申請日: | 2016-12-30 |
| 公開(公告)號: | CN106874365A | 公開(公告)日: | 2017-06-20 |
| 發明(設計)人: | 徐常勝;錢勝勝;張天柱 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/00 |
| 代理公司: | 北京瀚仁知識產權代理事務所(普通合伙)11482 | 代理人: | 李飛,吳曉芬 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 社會 媒體 平臺 事件 跟蹤 方法 | ||
技術領域
本發明涉及數據挖掘與數據跟蹤技術領域,具體而言,涉及一種基于社會媒體平臺上社會事件的跟蹤方法。
背景技術
隨著互聯網的快速發展,越來越多的社交網站(如Flickr,YouTube,臉譜網和谷歌新聞)出現在人們的視野,并且允許用戶去分享想法、心情、圖片、活動、事件以及尋找具有相同愛好的人。所以,現在發生在我們周圍和世界周圍的熱門事件主題可以快速在各大媒體網站上傳播,并且產生了大量的多模態媒體數據,其包括圖片、視頻、文本等。這些被用戶傳播在網站的多媒體數據內容大多和社會事件息息相關。然而在現實生活中,用戶人工收集這些所有的資料并且認識事件的整個演變過程是非常耗時。社會事件跟蹤可以在一定程度上解決整個問題,它的目的是為了從大量的媒體數據中自動識別以及跟蹤有趣的社會事件演變。舉例說明,用戶往往可能想要從開始到結束跟蹤整個“2011英國暴動”這個主題演變過程。當用戶在谷歌新聞上搜索整個相關事件的媒體信息時,可能會得到大量的相關信息。然而,結果往往只是顯示最近所發生的事情,而與它相關的事件信息可能過于分散,用戶為了了解整個事件不得不不斷地重復在這些信息之間進行切換。此外,對于用戶來說,瀏覽如此大量的數據信息是非常耗時的,用戶也無法捕捉到整個事件的演變。因此,為了得到一個科學的事件分析過程,我們有必要自動收集社會事件的整個發展趨勢并且用可視化的方式展示出來。如果得到了這個科學的分析過程,我們就可以知道“2011英國暴動”這個事件整體在各個城市間的發展演變。總的來說,基于社會媒體平臺的社會事件跟蹤是非常重要的,從大量的社交媒體的數據中自動挖掘和跟蹤社會事件,有助于用戶和政府更好地理解社會事件和知道它的演變趨勢。
當前,社會媒體平臺包含了大量的非結構化的多模態媒體數據,它不同于傳統的只有單一模態的數據,比如只有文本數據。在不同的社會媒體平臺,社會事件具有豐富的多模態信息形式,比如文本、圖片和視頻等。這些多模態信息形式可以互相補充,能夠更好地幫助用戶理解事件。舉例說明,對于相同的一個社會事件,由于不同的用戶在媒體平臺上表述的文本內容可能不同,但是其平臺上的視覺信息可能是相同或者相似的。然而,目前的一些工作可能都是集中研究某一種形態比如文本或者圖片。而人們需要綜合考慮多模態數據進行社會事件的分析。第二,在社會事件的跟蹤過程中,各個媒體網站可能具有相似的事件報道,比如“占領華爾街”,“美國總統選舉”,它們都具有相似的主題,類似“美國,政府,總統”。但是,由于很多信息都是由用戶產生的,所以有可能會存在一些噪音。舉個例子,評論和相應的圖片可能表述的事件沒有關系。這些問題很可能導致在線的社會事件跟蹤產生模型漂移。所以設計一種多模態融合策略和避免模型漂移問題的在線跟蹤方法對于社會事件跟蹤是非常有必要的。
為了實現以上目標,目前已經提出了很多方法。在最近的研究中,很多主題模型方法也同樣被用于多模態主題的社會事件分析。然而,這些方法要么必須假設主題個數要么在傳統的主題模型中,使用不同的數據集訓練模型并且最后選擇最好的數據集。這就意味著用戶必須對數據集的結構做一個假設或者訓練多種模型。
發明內容
為了解決現有技術中的上述問題,即為了解決如何改善社會事件跟蹤效果的技術問題,提供一種基于社會媒體平臺上社會事件的跟蹤方法。
為了實現上述目的,提供以下技術方案:
一種基于社會媒體平臺上社會事件的跟蹤方法,該方法可以包括:
提取社會媒體平臺上社會事件的文本和視覺信息特征;
基于提取的文本和視覺信息特征,利用基于事件的在線多模態跟蹤方法,在線地建模多模態數據的社會事件,得到多模態的文本和視覺主題以及社會事件文檔的特征表示;
利用多模態的文本和視覺主題以及社會事件文檔的特征表示,并將基于事件的在線多模態跟蹤方法集成到社會事件跟蹤方法上,來進行社會事件跟蹤。
優選地,提取社會媒體平臺上社會事件的文本和視覺信息特征,具體可以包括:
針對社會媒體平臺上社會事件的文本信息,使用向量空間模型,并利用文本的上下文信息,提取文本特征;
針對社會媒體平臺上社會事件的視覺信息,結合圖像的結構信息,利用稀疏學習和字典學習,并基于詞袋模型,提取視覺信息特征;其中,視覺信息包括圖像的結構信息。
優選地,基于提取的文本和視覺信息特征,利用基于事件的在線多模態跟蹤方法,在線地建模多模態數據的社會事件,得到多模態的文本和視覺主題以及社會事件文檔的特征表示,具體可以包括:
定義文檔層的狄利克雷:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611260200.6/2.html,轉載請聲明來源鉆瓜專利網。





