[發(fā)明專利]微博熱點話題分析方法無效
| 申請?zhí)枺?/td> | 201310284081.8 | 申請日: | 2013-07-08 |
| 公開(公告)號: | CN104281607A | 公開(公告)日: | 2015-01-14 |
| 發(fā)明(設計)人: | 肖江;嚴時浪;肖倫文 | 申請(專利權)人: | 上海銳英軟件技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 201207 上海市浦東新區(qū)張江高科技*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 熱點話題 分析 方法 | ||
技術領域
本發(fā)明涉及一種分析方法,特別是涉及一種微博熱點話題分析方法。。
背景技術
微博是一個基于用戶關系的信息分享、傳播以及獲取平臺,用戶可以通過WEB、WAP以及各種客戶端組件,以140字左右的文字更新信息,并實現(xiàn)即時分享。微博作為快速分享和傳播的網(wǎng)絡平臺,具有信息量龐大、信息分散多樣等特點。在國內,新浪微博和騰訊微博是最熱門的微博系統(tǒng),據(jù)公開數(shù)據(jù),新浪有超過2億的注冊用戶,騰訊微博有超過3億的注冊用戶。基于微博社交網(wǎng)絡的輿情分析系統(tǒng)應當能聚集出微博言論中的熱門話題,并進行追蹤和分析,提供輿情預警的功能。目前,微博平臺上發(fā)現(xiàn)討論熱點的主要方式包括:基于詞頻的熱點話題發(fā)現(xiàn)方法和文本分類方法。其中,
詞頻統(tǒng)計是當前微博平臺上發(fā)現(xiàn)討論熱點的主要方式。該方法來源于傳統(tǒng)的了tf-idf索引方法。在一定的時間范圍內,平臺對所有用戶發(fā)布的微博進行分詞、詞語篩選并建立倒排索引,之后將這些詞語按照頻率排序,頻率排序較高的詞語就成為微博上的熱點話題,用戶可以使用平臺提供的這些詞語,通過內部的反向索引在微博平臺上找到相關的微博條目。傳統(tǒng)的熱點詞語發(fā)現(xiàn)系統(tǒng)工作流程圖頻率統(tǒng)計方法簡單易行,在人工干預下具有較好的工作效率,目前在服務商中被廣泛采用。然而,頻率統(tǒng)計方法對于同義詞和一詞多義這兩種對其干擾很大的語義現(xiàn)象基本無法處理。單純基于詞語匹配的方法在文本匹配中存在著誤報或漏報結果這樣的現(xiàn)象。在微博平臺上,由于內容量大,用戶個性強,這使得基于文本匹配的熱點話題發(fā)現(xiàn)工作準確性不能得到很好的保證。另外,單獨的熱點詞語只能帶給用戶片面的信息,對于用戶來說更像是提供了一個信息索引而非信息本身。為了提高用戶體驗必須增加一定數(shù)量的人工篩選工作,減低了系統(tǒng)的效率;而且,針對日益升高的用戶個性化推薦需求的滿足,頻率統(tǒng)計方法幾乎不能給予有效的協(xié)助。
傳統(tǒng)的文本分類方法也可以應用在微博平臺上進行熱點信息篩選,目前被廣泛使用的自動分類器有貝葉斯分類器,基于實例的kNN分類器,以及支持向量機等。由于微博客用戶數(shù)量十分大,用戶關注的話題極為廣泛,用戶之間又存在著明顯的相互影響的關系,整個用戶網(wǎng)絡對熱點事件的捕捉是十分迅速的。如果能設計一種切合當前熱點事件的分類器,那么就能夠實時地檢測到這一類別的信息的變化趨勢。然而熱點事件和話題在其出現(xiàn)之前是未知的,因此問題轉變?yōu)榱藢σ恍┨囟ǖ摹⒚舾械脑掝}的固定性監(jiān)測。分類器方法在針對特定話題的篩選上有著良好的效果,然而,由于微博上的文本內容分布范圍十分廣,這使得設計一個完備的詞典式分類器從而讓所有的信息都落在特定的類別中變得幾乎不可能。熱點話題發(fā)現(xiàn)需要迅速地捕捉到多個不同話題,一般的分類器難以勝任這樣的任務。另外,由于新聞信息的突發(fā)性和不確定性,如果要完成對于微博上熱點信息變化趨勢的追蹤,必須花費不小的代價對分類器的結果進行監(jiān)測。
如上所述,傳統(tǒng)的微博熱點話題分析算法存在以下兩個方面的問題:
第一,傳統(tǒng)的微博熱點話題分析方法不關注搜索結果的詞語準確性——傳統(tǒng)方法受限于其本質上的割裂詞語之間相互聯(lián)系,因此對于同義詞和一詞多義這兩種對其干擾很大的現(xiàn)象基本無法處理,從而很大程度上影響了用戶體驗。由于人類在進行敘述時所采用的文字有很高的隨機性、不確定性,這使得用戶在面對海量信息進行查詢時經(jīng)常被文本相近而內容實質上不相關的結果所困擾。微博熱點話題分析必須要考慮搜索結果的詞語準確性,搜索結果必須要考慮到相近詞匯的區(qū)別。
第二,傳統(tǒng)的微博熱點話題分析方法不關注搜索結果的實時性——熱點話題分析的結果的產(chǎn)生時間對結果排名沒有影響或者影響很小。然而,微博消息具有很強的實時性,是由微博用戶動態(tài)生成的,其內容往往涉及實時的消息和內容,因此微博熱點話題分析方法必須要考慮搜索結果的實時性,搜索結果的產(chǎn)生時間必須作為排名的依據(jù)。
然而,微博熱點話題分析方法相關領域的研究還比較有限,目前的研究工作主要集中在已知話題的被動數(shù)據(jù)采集,無法保證微博輿情發(fā)現(xiàn)的時效性。進行輿情分析、預警的工作經(jīng)常需要大量網(wǎng)絡爬蟲采集回來的海量數(shù)據(jù)的讀入、寫出,傳統(tǒng)的文件存儲或者數(shù)據(jù)庫存儲已經(jīng)滿足不了輿情分析工作的性能需求。
發(fā)明內容
本發(fā)明所要解決的技術問題是提供一種微博熱點話題分析方法,其解決上述技術問題。
本發(fā)明是通過下述技術方案來解決上述技術問題的:一種微博熱點話題分析方法,其特征在于,其包括以下步驟:
步驟一,微博采集模塊根據(jù)采集策略,使用網(wǎng)絡爬蟲與微博第三方api技術相結合的方式獲取微博數(shù)據(jù);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海銳英軟件技術有限公司,未經(jīng)上海銳英軟件技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310284081.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種微通道換熱器組件
- 下一篇:一種五自由度平面關節(jié)機器人機構





