[發明專利]一種中文微博話題信息處理方法有效
| 申請號: | 201510627783.0 | 申請日: | 2015-09-28 |
| 公開(公告)號: | CN105354216B | 公開(公告)日: | 2018-09-07 |
| 發明(設計)人: | 趙妍妍;秦兵;李澤魁 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 楊立超 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 話題 信息處理 方法 | ||
1.一種中文微博話題信息處理方法,其特征在于,所述處理方法包括以下步驟:
步驟一:熱點事件相關微博的判斷;
輸入單個熱點事件的相關微博,使用語言技術平臺對文本預處理并通過關鍵詞匹配方法判斷微博是否相關;
步驟二:微博的關鍵話題發現;
通過統計微博中的Hashtag信息,挖掘熱點事件微博中的話題信息,其中所述Hashtag為話題信息,即微博中兩個“#”符號之間的文字;
步驟三:話題的聚類排序算法;
得到熱點事件的相關微博后,首先進行話題抽取與聚類排序,其中所述話題抽取工作是指將微博所描述的話題信息進行抽取總結,話題的聚類排序是指先將部分相似的話題進行聚類處理;
(1)層次聚類算法
采用Hashtag字符串相似度算法,即字符串相似度作為聚類中距離計算的依據,計算公式如下:
其中所述HA和HB為SA和SB中的Hashtag字符串,SA為微博文本A,SB為微博文本B,LCS為兩個字符串的最長公共子序列,Edit Distance為編輯距離,對兩個字符串相似度的數值作了歸一化處理,即公式的前后兩部分分別除以了字符串HA和HB中的min(Length(HA),Length(HB))和max(Length(HA),Length(HB));
(2)話題聚類結果排序算法
采用根據微博數目與聚類結果話題數的加權關系作為排序公式;
RankingScore(topic)=log(topicweibonumber)·topicnum (4)
式中RankingScore(topic)是話題topic對應的排序得分,topic weibonumbe r為話題下含有的微博數目,topicnum為結果中合并的話題數目,對微博數目進行了對數處理;
步驟四:微博話題糾正算法;
(1)初始輸入:話題聚類排序后的結果共K個,包括前S個話題和后U個話題;
(2)前S個話題劃分為“種子話題”,后U個話題劃分為“非種子話題”,U個話題按照與S個話題的相似度排序劃分為待預測集U1和訓練反例集U2;
(3)對S個話題的語料進行特征抽取以及模型訓練;
(4)將訓練得到的模型預測非種子待預測集U1;
(5)將U1中微博分類結果概率大于閾值的直接加入到對應S個話題中,同時將微博從待預測集U1中刪除;
(6)從第(2)步開始循環,直至達到S個話題對應微博的添加率小于閾值的條件,完成循環;
(7)最終輸出:自擴充的S個話題及其相關微博;
步驟五:采用準確率@5指標進行評價;
采用準確率@5指標反映算法的排序結果的優劣性,使用微博數目平均添加率和追加微博的平均命中率作為微博自擴充算法的評價指標;
所述準確率@5指標為排序結果最前的5條預測正確的話題數目與前5條標準答案中話題數目的比值,即公式(5):
微博數目平均添加率是每個話題相關的微博自擴充后的添加率平均值,即公式(6):
追加微博的平均命中率,即算法中追加到現有話題的微博正確命中的數目與當前話題的微博數目比值,即公式(7):
2.根據權利要求1所述的一種中文微博話題信息處理方法,其特征在于所述步驟四中S個話題對應微博的添加率的閾值取值為0.1。
3.根據權利要求1或2所述的一種中文微博話題信息處理方法,其特征在于,步驟四中,在步驟(7)獲得最終輸出之后,返回再次重復執行步驟(1)至步驟(7),且初始輸入為步驟(7)最終輸出的自擴充的S個話題及其相關微博。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510627783.0/1.html,轉載請聲明來源鉆瓜專利網。





