[發明專利]一種中文微博話題信息處理方法有效
| 申請號: | 201510627783.0 | 申請日: | 2015-09-28 |
| 公開(公告)號: | CN105354216B | 公開(公告)日: | 2018-09-07 |
| 發明(設計)人: | 趙妍妍;秦兵;李澤魁 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 楊立超 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 話題 信息處理 方法 | ||
一種中文微博話題信息處理方法,本發明涉及微博事件情感分布的原因分析算法。本發明是為了解決目前微博話題信息處理方法中采用的層次聚類算法和糾正算法的準確率低,不能將事件相關的微博劃分到正確的主題下。本發明使用無監督學習的層次聚類排序方法和半監督學習的微博話題糾正算法兩種方法,進行事件話題及其相關微博的挖掘,最終達到對相關微博進行情感分布統計及分析的目的。本發明能夠更加準確地進行微博話題信息處理。本發明應用于微博話題信息處理領域。
技術領域
本發明涉及微博話題信息處理方法。
背景技術
微博作為新興的社交媒體平臺,也是國內最流行的社交媒體平臺之一,存在著數以億計的活躍用戶,越來越多的網民選擇在微博上獲取與分享自己感興趣的信息,在微博日均千萬級的大數據面前,分析網民對某一事件的觀點與態度是一件非常有意義的工作,越來越多的學者開始關注微博這樣的大數據背后的信息。
由于微博作為社交媒體的形式走入人們生活的時間并不長,所以國內外面向微博的事件情感分布原因分析的相關研究不是很多,現階段的微博事件挖掘方法主要有,2011年,Weng等人通過將小波變換的相關原理利用到微博文本中一些詞語頻率的監聽上,通過分析其自相關性過濾篩選出突發詞匯,聚類為突發事件(文獻[1]:Weng J,Lee B S.EventDetection in Twitter[J].ICWSM,2011,11:401-408),該方法在事件監測方面有一定效果,但是易受噪聲干擾;Zhao等人在為了對微博中的熱點詞條進行排序,根據含有關鍵詞條的微博的轉發率、詞頻等信息計算出來一個概率值,根據概率得出基于“有趣程度”的排序公式(文獻[2]Zhao W X,Jiang J,He J,et al.Topical keyphrase extraction fromtwitter[C]//Proceedings of the 49th Annual Meeting of the Association forComputational Linguistics:Human Language Technologies-Volume 1.Associationfor Computational Linguistics,2011:379-388)。Spina等人列舉了現有的文本抽取的抽取方式,通過對少量已標注微博語料進行了話題抽取,最后出乎意料的是最簡單的基于詞頻/逆文檔頻率的抽取方法取得最好的效果,同時證明了名詞過濾的預處理在本任務中是有效的(文獻[3]Spina D,Meij E,de Rijke M,et al.Identifying entity aspects inmicroblog posts[C]//Proceedings of the 35th international ACM SIGIRconference on Research and development in information retrieval.ACM,2012:1089-1090)。相比前人比較粗糙的工作,Abhimanyu和Anitha在2014年的工作(文獻[4]DasA,Kannan A.Discovering topical aspects in microblogs[C]//Proceedings ofCOLING.The 25th International Conference on Computational Linguistics:Technical Papers,2014:860-871)就顯得充分很多,他們為了挖掘Twitter中的熱點話題,通過觀察微博事件的共性,得出了三項評價指標,分別為“多樣性(Diversity)”、“唯一性(Uniqueness)”和“突發性(Burstiness)”,用弱標注的訓練語料通過一個高斯混合模型來擬合數據的分布,從而輸出候選角度是否為微博事件,這樣的有監督學習的話題抽取方法也可以取得不錯的效果,但是很遺憾這個算法沒有涉及話題的聚類排序處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510627783.0/2.html,轉載請聲明來源鉆瓜專利網。





