[發明專利]一種基于主題詞的社交媒體事件主題識別方法有效
| 申請號: | 201910766747.0 | 申請日: | 2019-08-20 |
| 公開(公告)號: | CN110457711B | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 費高雷;李家傳;于富財;胡光岷 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/33;G06F16/35 |
| 代理公司: | 成都虹盛匯泉專利代理有限公司 51268 | 代理人: | 王偉 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 主題詞 社交 媒體 事件 主題 識別 方法 | ||
本發明公開了一種基于主題詞的社交媒體事件主題識別方法,包括以下步驟:S1、對社交媒體文本進行降噪處理;S2、計算詞和事件關于主題的分布向量;S3、提取社交媒體文本中事件主題詞;S4、構建基于主題詞的貝葉斯推斷模型。本發明的事件主題詞提取算法利用了詞與事件關于主題分布的差異計算提取主題詞,該算法計算復雜度低且提取準確率高,適用于大數據量的在線主題詞提取;本發明提出的基于貝葉斯推斷的事件主題分類算法,能夠高效分類事件主題,具有較高的分類準確率和實用性,且本發明提出的算法不依賴特征工程,對于不同的主題分類任務更換訓練集重新訓練即可再次使用,可移植性高。
技術領域
本發明涉及一種基于主題詞的社交媒體事件主題識別方法。
背景技術
社交媒體中的事件是指在現實世界中特定時間地點實際發生的重要事情,它在社交網絡中借由文本等數據形式得以保存和傳播。社交媒體事件主題識別是近年來隨著互聯網的發展和社交媒體的出現而興起的新的研究方向,它的研究目的在于將充斥于社交媒體上的事件文本進行主題分類。在互聯網高速發展,各種網絡應用普及的背景下,社交網絡作為網絡應用中最受歡迎的應用之一,在全球范圍內擁有大量的用戶。由于社交網絡具有信息發布快速及時及傳播范圍廣的特點,許多事件發生后第一時間就會被用戶發送并在社交網絡上傳播開來,但是由于社交網絡數據量龐大,造成用戶難以獲取想要的事件的相關信息。因此,通過事件主題分類方法,可以識別出用戶感興趣主題的事件推文,并向用戶定向推送,方便用戶的信息獲取。
社交媒體事件主題識別研究尚未形成成熟的方法體系,因此現階段主要使用傳統的文本挖掘技術來進行事件主題識別。現有的傳統文本分類方法主要分為基于無監督學習的主題模型方法和基于有監督學習的傳統機器學習方法。
基于無監督學習的主題模型是用于發現大量文檔潛在主題的統計模型方法,它將每篇文檔視為由多個主題組成,文檔中每個詞由其中一個主題生成,最終將每篇文檔的主題以概率分布的形式給出。文本分類中常用的主題模型包括LDA和PLSA。LDA通常被視為由文檔層、主題層和詞語層組成的三層貝葉斯模型,它基于貝葉斯定理將三層聯系起來,來識別文檔中的潛在主題。LDA不需要人工標注訓練集,只需要輸入文本集和指定需要輸出的主題數量。但是LDA在處理社交文本主題分類時,由于社交網絡中詞語拼寫不規范以及如#hashtag和URL等實體數量較多,導致詞匯的向量表示稀疏,同時社交網絡推文由于限制140字符的長度,所以攜帶的有用信息較少,所以導致主題模型在有噪聲的社交網絡短文本上效果較差。
基于有監督學習的機器學習方法通過訓練集訓練一個從文本特征到事件主題的映射模型,由該映射模型對未知文本進行分類。這種方法需要使用特征工程對每篇待分類文檔進行特征提取,將文檔表示為向量,然后使用機器學習方法訓練一個分類器(如SVM)對文檔進行分類。將文檔表示為向量需要進行特征提取,通常的特征提取方法包括詞袋法和基于任務的特征提取。詞袋法將文本分割為以單一詞語或者單詞組成的多元詞組表示,如果不考慮詞頻則可以進行one-hot編碼,單詞出現則將相應位置表示為1,否則以0表示,若考慮詞頻則可將向量相應位置表示為對應的詞頻來表示詞的重要性。TF-IDF是詞袋法的典型方法。另一種特征提取方法基于分類任務本身構建特征,例如對于分類政治與非政治事件,則可將政治相關詞的出現比例作為分類器輸入向量的重要一維。如果一簇推文屬于政治事件,則推文中“vote”、“election”等單詞的出現比例就會比較高。同時對于社交網絡文本,其特有的實體特征也是對事件進行主題分類的重要特征,例如對于恐怖襲擊事件,其推文中@username的提及賬號屬于極端分子的比例越高,則該簇推文屬于恐怖襲擊的概率就越高。但是上述方法沒有對詞匯進行針對性選擇,導致詞匯向量表示維度過高,特征表示稀疏。同時該方法依賴于特征工程構建特征,在將該方法遷移到其他分類任務時需要重新構建特征,而特征的構建依賴于使用者的經驗,導致方法的可移植性較差,測試集變化時分類準確率較低。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910766747.0/2.html,轉載請聲明來源鉆瓜專利網。





