[發明專利]一種基于融合多級別主題情感模型的文本分類方法及裝置有效
| 申請號: | 202111009968.7 | 申請日: | 2021-08-31 |
| 公開(公告)號: | CN113688241B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 黎荊妗;杜小東;朱征宇;趙福強;韓萍 | 申請(專利權)人: | 重慶大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06F40/242 |
| 代理公司: | 重慶市前沿專利事務所(普通合伙) 50211 | 代理人: | 郭云;肖秉城 |
| 地址: | 400044 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 融合 多級 主題 情感 模型 文本 分類 方法 裝置 | ||
本發明公開了一種基于融合多級別主題情感模型的文本分類方法及裝置。所述基于融合多級別主題情感模型的文本分類方法,包括以下步驟:S1,對文本進行預處理;S2,預處理后的文本輸入單詞級主題情感模型JST、語塊級主題情感模型CTSM和句子級主題情感模型SJTSM中,分別提取文本的單詞級、語塊級和句子級主題情感概率分布;S3,提取的單詞級、語塊級和句子級主題情感概率分布進行拼接,得到多級別主題情感概率分布;S4,多級別主題情感概率分布作為文本的特征向量輸入到分類器中進行文本分類,得到分類結果。
技術領域
本發明涉及文本分類領域,具體涉及一種基于融合多級別主題情感模型的文本分類方法及裝置。
背景技術
主題模型是以非監督學習的方式對文集的隱含語義結構進行聚類的統計模型,主要被用于自然語言處理中的語義分析和文本挖掘問題,例如按主題對文本進行收集、分類和降維。現有的主題模型主要分為兩類,參數方法和非參數方法。經典的主題模型是LDA(隱含狄利克雷分布,Latent?Dirichlet?Allocation)模型。以PLSA(概率潛在語義分析,Probablistic?Latent?SemanticAnalysis)模型為基礎,加上了貝葉斯先驗,可得到LDA模型。LDA模型得到了廣泛使用,并衍生出了很多改進版本。
例如在LDA的基礎上以文章中的句子為單位,提出的SenLDA模型;該模型假設了句子之間的詞對文章潛在主題有很強的依賴性,使主題模型從詞的維度擴展到了句的維度。
模型粒度介于單詞級主題模型LDA和句子級主題模型SenLDA之間的語塊級主題模型CopLDA(CopulaLDA)模型。語塊由一個或多個單詞組成。該模型假設“一個語塊中的每個單詞表示同一個主題”,此假設較SenLDA模型中的“一個句子中的每個單詞表示同一個主題”更嚴格。
上述模型中,單詞級主題模型LDA和句子級主題模型SenLDA無法提取名詞短語類(由多個單詞構成的詞組)的主題。比如專有名詞等名詞短語類主題,當主題詞為蘋果公司“Apple?Inc.”時,LDA模型和SenLDA模型都只能提取單個單詞“Apple”或者“Inc.”作為主題;當結果為“Apple”時,則可能被誤理解為水果相關,而不是指公司。除此之外,LDA模型、CopLDA模型和SenLDA模型均只考慮了文本的結構信息,忽略了文本的情感信息;使得上述模型應用于一些包含語義、結構和情感等信息特征的文本分類時,不能有效利用文本的全部特征進行分類,導致準確率可能不夠高;例如虛假評論信息的檢測。
除此之外,文本向量表示的準確與否在很大程度上決定文本分類的準確性,現有的文本分類方法大多只從單詞級、或句子級等某一個單一的層級進行文本向量的提取表示,因此文本向量表示的準確性不夠高。
發明內容
本發明的目的在于克服現有技術中所存在的未有效多方面的提取文本特征和單一層級提取文本向量準確性不高的不足,提供一種基于融合多級別主題情感模型的文本分類方法及裝置。
為了實現上述發明目的,本發明提供了以下技術方案:
一種基于融合多級別主題情感模型的文本分類方法,包括以下步驟:
S1,對文本進行預處理;
S2,預處理后的文本輸入單詞級主題情感模型JST、語塊級主題情感模型CTSM和句子級主題情感模型SJTSM中,分別提取文本的單詞級、語塊級和句子級主題情感概率分布;
S3,提取的單詞級、語塊級和句子級主題情感概率分布進行拼接,得到多級別主題情感概率分布;
S4,多級別主題情感概率分布作為文本的特征向量輸入到分類器中進行文本分類,得到分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111009968.7/2.html,轉載請聲明來源鉆瓜專利網。





