[發明專利]一種基于有監督主題模型的文本分類方法及系統有效
| 申請號: | 201811398232.1 | 申請日: | 2018-11-22 |
| 公開(公告)號: | CN109408641B | 公開(公告)日: | 2020-06-02 |
| 發明(設計)人: | 唐煥玲;竇全勝;于立萍;宋英杰;魯眀羽 | 申請(專利權)人: | 山東工商學院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/332;G06K9/62 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 張慶騫 |
| 地址: | 264026 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 主題 模型 文本 分類 方法 系統 | ||
1.一種基于有監督主題模型的文本分類方法,其特征在于,包括:
構建SLDA-TC文本分類模型,SLDA-TC文本分類模型的訓練文檔集的每個文檔帶有類別標簽;SLDA-TC文本分類模型中需要估計的參數不僅包括文本-主題概率分布、主題-詞概率分布,還包括主題-類別概率分布;
訓練SLDA-TC文本分類模型,按照SLDA-TC-Gibbs算法進行SLDA-TC模型參數估計;其中,按照SLDA-TC-Gibbs算法進行SLDA-TC模型參數估計的過程為:對每個詞的隱含主題進行采樣,且只從與該詞所在文本類別標簽相同的其它訓練文本中進行隱含主題采樣;在確定每個詞的隱含主題之后,通過統計主題-詞、文檔-主題、主題-類別的頻次,計算得到文本-主題概率分布、主題-詞概率分布和主題-類別概率分布,進而建立出主題與類別之間的準確映射;
待測文本主題推斷和分類;將待測文本輸入至訓練完成的SLDA-TC文本分類模型,首先對待測文檔每個詞進行隱含主題采樣;然后推斷待測文本的主題概率分布;根據待測文檔的主題分布和SLDA-TC模型的主題-類別分布,輸出待測文本的類別標簽。
2.如權利要求1所述的一種基于有監督主題模型的文本分類方法,其特征在于,所述文本-主題概率分布、主題-詞概率分布和主題-類別概率分布均服從Dirichlet分布。
3.如權利要求1所述的一種基于有監督主題模型的文本分類方法,其特征在于,通過多次迭代訓練生成用于文本分類的SLDA-TC模型,迭代結束,通過JS散度評估主題之間的相似度,通過SLDA-TC的主題-類別分布參數評估主題與類別之間的語義相關度。
4.如權利要求3所述的一種基于有監督主題模型的文本分類方法,其特征在于,所述文本分類結果評價指標包括宏平均分類精度、宏平均召回率和宏平均F1值。
5.一種基于有監督主題模型的文本分類系統,包括文本輸入裝置、控制器和顯示裝置,所述控制器包括存儲器和處理器,其特征在于,所述存儲器存儲有計算機程序,所述程序被處理器執行時能夠實現以下步驟:
構建SLDA-TC文本分類模型,SLDA-TC文本分類模型的訓練文檔集的每個文檔帶有類別標簽;SLDA-TC文本分類模型中需要估計的參數不僅包括文本-主題概率分布、主題-詞概率分布,還包括主題-類別概率分布;
訓練SLDA-TC文本分類模型,按照SLDA-TC-Gibbs算法進行SLDA-TC模型參數估計;其中,按照SLDA-TC-Gibbs算法進行SLDA-TC模型參數估計的過程為:對每個詞的隱含主題進行采樣,且只從與該詞所在文本類別標簽相同的其它訓練文本中進行隱含主題采樣;在確定每個詞的隱含主題之后,通過統計主題-詞、文檔-主題、主題-類別的頻次,計算得到文本-主題概率分布、主題-詞概率分布和主題-類別概率分布,進而建立出主題與類別之間的準確映射;
待測文本主題推斷和分類;將待測文本輸入至訓練完成的SLDA-TC文本分類模型,首先對待測文檔每個詞進行隱含主題采樣;然后推斷待測文本的主題概率分布;根據待測文檔的主題分布和SLDA-TC模型的主題-類別分布,輸出待測文本的類別標簽。
6.如權利要求5所述的一種基于有監督主題模型的文本分類系統,其特征在于,文本主題概率分布、主題的詞概率分布和主題的類別概率分布均服從Dirichlet分布。
7.如權利要求5所述的一種基于有監督主題模型的文本分類系統,其特征在于,通過多次迭代訓練生成用于文本分類的SLDA-TC模型,迭代結束,通過JS散度評估主題之間的相似度,通過SLDA-TC的主題-類別分布參數評估主題與類別之間的語義相關度。
8.如權利要求7所述的一種基于有監督主題模型的文本分類系統,其特征在于,所述文本分類結果評價指標包括宏平均分類精度、宏平均召回率和宏平均F1值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東工商學院,未經山東工商學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811398232.1/1.html,轉載請聲明來源鉆瓜專利網。





