[發明專利]一種基于多樣深層主題模型的文本分析方法在審
| 申請號: | 201910750551.2 | 申請日: | 2019-08-14 |
| 公開(公告)號: | CN112395413A | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 陳渤;陳文超;趙倩茹;劉應祺;劉宏偉 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 西安嘉思特知識產權代理事務所(普通合伙) 61230 | 代理人: | 張捷 |
| 地址: | 710071*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多樣 深層 主題 模型 文本 分析 方法 | ||
本發明公開了一種基于多樣深層主題模型的文本分析方法,構建文本數據的訓練樣本集與測試樣本集;根據訓練樣本集構建多樣深層主題模型,并初始化多樣深層主題模型的初始模型參數;根據訓練樣本集訓練多樣深層主題模型得到訓練模型參數,并根據訓練模型參數更新初始模型參數得到訓練后多樣深層主題模型;根據測試樣本集訓練訓練后多樣深層主題模型得到若干測試隱層特征;根據若干隱層特征對訓練模型參數行可視化分析,得到若干文本主題;根據若干文本主題、訓練樣本集、測試隱層特征與測試后多樣深層主題模型對文本數據進行分類。本發明可以全面反映文本數據特性,使得文本主題具備較好的可分性,文本分析能力高。
技術領域
本發明屬于自然語言處理技術領域,具體涉及一種基于多樣深層主題模型的文本分析方法。
背景技術
隨著移動互聯網與信息技術的飛速發展,大數據時代已然到來。在浩繁的網絡中的海量數據亟待有效的處理與分析方法。尤其是文本類型的數據,往往包含著巨大的信息量,政府、企業與個人對于智能文本分析的需求日益增長,因此自然語言處理技術得以進一步發展。其中,主題模型作為一種文本挖掘方法,能夠有效地提取文本特征,發現文本數據中潛在語義主題,被廣泛應用于機器學習與數據挖掘領域的文本分析任務中,如文本聚類、熱點挖掘、情感分析、信息檢索、推薦系統等。目前,現有的主題模型主要都是基于一種經典的模型,即潛在狄利克雷分布(Latent Dirichlet Allocation,LDA),結合應用領域及其數據特性進行相應的擴展研究,提出了各種不同的主題模型。同時,吉布斯采樣方法被廣泛應用于主題模型的參數學習與變量推斷。
現有方法存在不足之處:LDA主題模型不能用于提取深層語義特征主題,難以進行層次化文本分析,現有的深層主題模型雖然能夠提取深層特征,但是提取出的高層主題多樣性較差,對高層語義特征的表達能力有限,影響層次化特征提取效果,導致后續的文本分類等任務性能較差;并且,采用傳統吉布斯采樣方法對深層主題模型進行訓練,其計算量較大、收斂速度較慢,現有收斂速度較快的改進吉布斯采樣方法則不適用于需要進行在線訓練的大數據場景,難以并行訓練,實用性有限。
西安電子科技大學在其申請的專利文獻“基于變分自編碼模型的文本深度特征提取方法”(專利申請號201810758180.8,公開號109145288A)中公開了一種基于變分自編碼模型的文本深度特征提取方法。該方法構建了可用于提取深層主題關鍵詞的變分自編碼推理模型,將輸入文檔作為訓練數據和測試數據,提取兩層主題關鍵詞作為對應的文本深度特征提取結果。該方法存在的不足之處是,雖然可以提取出文本深層次特征,但是隨著層數加深,提取出的主題關鍵詞相似性較高、多樣性較差,不具備較好的可分性,會影響后續的文本分析能力。
南京大學在其申請的專利文獻“一種LDA主題模型優化采樣方法”(專利申請號201810493178.2,公開號108763207A)中公開了一種LDA主題模型優化采樣方法。該方法利用分解吉布斯采樣公式、構建AliasTable和累積分布的方法,實現一次構建多次采樣,提升了LDA主題模型訓練學習的收斂速度。但是,該方法需要一次性輸入文本數據進行采樣以學習主題模型的參數,當數據量較大時,由于現在計算機硬件計算能力的限制,難以進行并行訓練,不適于大數據場景,實用性有限。
發明內容
為了解決現有技術中存在的上述問題,本發明提供了一種基于多樣深層主題模型的文本分析方法。本發明要解決的技術問題通過以下技術方案實現:
一種基于多樣深層主題模型的文本分析方法,包括:
構建文本數據的訓練樣本集與測試樣本集;
根據所述訓練樣本集構建多樣深層主題模型,并初始化所述多樣深層主題模型的初始模型參數;
根據所述訓練樣本集訓練多樣深層主題模型得到訓練模型參數,并根據訓練模型參數更新所述初始模型參數得到訓練后多樣深層主題模型;
根據所述測試樣本集訓練所述訓練后多樣深層主題模型得到若干測試隱層特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910750551.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種采用分隔壁精餾塔分離醋酸加氫制乙醇產物的方法
- 下一篇:智能電飯煲





