[發明專利]基于優質主題擴展的微博文本分類方法及系統有效
| 申請號: | 201811064231.3 | 申請日: | 2018-09-12 |
| 公開(公告)號: | CN109344252B | 公開(公告)日: | 2021-12-07 |
| 發明(設計)人: | 張曦元;孫福權 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06K9/62 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 李馨 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 優質 主題 擴展 文本 分類 方法 系統 | ||
本發明提供一種基于優質主題擴展的微博文本分類方法及系統。適用于微博等短文本分類中文本的特征擴展,能夠實現微博有效分類。將訓練集微博數據作為LDA模型的輸入,得到主題概率分布與詞概率分布;利用信息熵提取出的高表征性主題根據主題的相似度提取出優質主題;對測試集微博進行主題推斷;選取優質主題特征詞對微博文本進行特征擴展;對擴展后的微博文本使用支持向量機算法進行分類預測。本方法適用于解決利用主題模型擴展微博文本特征時主題詞混雜所致文本特征擴展不精確問題。
技術領域
本發明涉及于文本分類技術領域,具體而言,尤其涉及一種基于優質主題擴展的微博文本分類方法及系統。
背景技術
作為新興媒介之一,微博至今已有上億的用戶群,在中國社交網絡平臺中占據領先地位。微博操作簡單、內容更新迅速,具有較高的研究價值。過去的幾十年里,文本分類已經有較多研究,但對于微博這類短文本分類的效果始終不理想。針對微博文本篇幅短小、特征稀疏,再經分詞和停用詞處理,過濾掉一些詞語,再次經過特征選擇之后更是保留了極少的特征,這雖然降低了計算的復雜性,但使得分類的準確率明顯下降所以為了更好地進行分類,需要對微博文本的進行擴展特征。
LDA模型是由單詞、主題和文檔構成的三層貝葉斯概率模型。假設每篇文檔由多個隱含主題構成,依據詞匯間的共現關系挖掘潛在主題,將文本表示為主題的概率分布,將主題表示為一系列單詞構成的概率分布。利用主題分布實現短文本的特征擴展是提升短文本分類的有效方式,但主題模型訓練出的主題并非所有主題都能完整表述一個主題內容,存在主題混雜及主題不明確現象,直接進行短文本擴充可能引入其他不相符特征。
發明內容
根據上述提出的利用主題模型進行微博文本擴充存在的技術問題,而提供一種基于優質主題擴展的微博文本分類方法及系統。本發明該方法有效提取出優質的主題,用于微博特征擴展后有效解決了特征稀疏導致的分類效果較差的缺點。
本發明采用的技術手段如下:
一種基于優質主題擴展的微博文本分類方法,包括如下步驟:
S1、對微博文本進行數據預處理并進行特征選擇,通過預處理后的文本構建訓練集與測試集;
S2、將預處理后的訓練集數據作為LDA模型的輸入,得到訓練集數據的主題的概率分布及主題詞的概率分布;
S3、將信息熵應用于主題詞的概率分布計算出主題熵,同時計算相對熵和主題的平均相似度,從而計算主題優質系數,設定閾值篩選出優質主題;
S4、分別對訓練集與測試集進行主題劃分,通過LDA模型主題分布劃分出每個文本在優質主題中的概率最大值對于主題的主題詞,將所述主題詞作為擴展詞分別添加至訓練集與測試集的文本特征中;
S5、利用向量空間模型對擴展后的文本進行文本表示,并用TF-IDF計算每個特征詞的權重,將訓練數據與測試數據文檔轉變為向量,選取有用特征,通過分類器SVM訓練訓練集,繼而對測試集進行分類預測,產生分類結果。
進一步地,所述對微博文本進行數據預處理并進行特征選擇包括如下步驟:
S11、對文本進行中文分詞預處理,將完整的句子劃分成詞匯,從而得到文本語料特征集;
S12、剔除分詞后文本中的常見的連詞、代詞類停用詞,利用中文停用詞表進行預處理操作,若特征詞存在停用詞表則刪除該特征詞,再對標點符號進行剔除;
S13、將預處理后文本根據所屬類別劃分構建詞典,統計不同類別詞的信息,對特征詞出現總次數進行降序排列,選擇每類排在前n的詞作為該類的特征詞,進行匯總后作為分類的總體特征。
進一步地,所述步驟S2中,通過如下步驟得到訓練集數據的主題的概率分布:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811064231.3/2.html,轉載請聲明來源鉆瓜專利網。





