[發明專利]一種基于狄利克雷變分自編碼器的短文本主題識別方法有效
| 申請號: | 202011482778.2 | 申請日: | 2020-12-15 |
| 公開(公告)號: | CN112597769B | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 饒洋輝;丁誠 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 陳偉斌 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 狄利克雷變分 編碼器 文本 主題 識別 方法 | ||
本發明提供一種基于狄利克雷變分自編碼器的短文本主題識別方法,包括以下步驟:S1.將短文本數據集進行預處理,分詞、去停用詞、標點符號和數字,得到數據集的文本特征向量;S2.訓練進行聚類,確定短文本集合中各短文本所屬類別,該類別作為短文本的補充特征信息;S3.構建條件變分神經主題模型,得到語料集中的文檔?主題分布以及主題?詞分布;S4.短文本主題識別,得到短文本的補充特征信息作為短文本的特征表示,用于文本的分類和聚類。本發明提供了一種基于狄利克雷變分自編碼器的短文本主題識別方法,加速了模型訓練,解決了短文本主題模型特征稀疏的問題,在進行短文本主題識別的同時,增強了短文本的分類和聚類效果。
技術領域
本發明涉及短文本技術領域,更具體地,涉及一種基于狄利克雷變分自編碼器的短文本主題識別方法。
背景技術
隨著互聯網的蓬勃發展,網絡成為人們獲取信息的重要來源。文本作為主要的信息載體,在網絡信息傳播中發揮著重要作用。許多數據分析應用如微博、短信、評論都涉及到從短文本中提取主題信息,并且,提取出潛在主題有利于下一步的分析,如情感分析、文本分類、推薦系統等。然而,由于短文本數據文本字數少、書寫隨意的特性,我們很難直接從短文本數據中提取信息。
中國專利公開號CN107798043A,公開日期2017年6月28日,該專利申請公開了一種基于狄利克雷多項混合模型的長文本輔助短文本的文本聚類方法,提出了主題相關長文本輔助短文本的思想,輔助的基礎是長文本與短文本共享相同的主題詞語分配。為了更好地提升聚類效果,該發明能夠自動判斷長文本中的有用詞和噪音詞,利用長文本中高質量的有用詞與短文本集合進行文本聚類?,F有的短文本主題模型主要是基于變分推斷和吉布斯采樣方法的,它們通過引入額外的長文本語料信息來解決短文本特征稀疏的問題,這種方式雖然可行,但存在以下兩個問題:一方面,變分推斷和吉布斯采樣一類方法收斂速度較慢,再引入長文本語料信息將會帶來相當高的時間消耗。另一方面,這類方法基于概率圖框架推導原理復雜,如果在原有模型基礎上引入新的信息又需重新推導,因此存在可拓展性差的問題。
發明內容
本發明的目的在于克服現有技術訓練速度慢、時間復雜度高,可拓展性差、短文本特征稀疏的缺點,本發明提供了一種基于狄利克雷變分自編碼器的短文本主題識別方法,加速了模型訓練,解決了短文本主題模型特征稀疏的問題,在進行短文本主題識別的同時,增強了短文本的分類和聚類效果。
為解決上述技術問題,本發明采用的技術方案是:一種基于狄利克雷變分自編碼器的短文本主題識別方法,其中包括以下具體步驟:
S1.將短文本數據集進行預處理,分詞、去停用詞、標點符號和數字,得到數據集的文本特征向量;
S2.基于步驟S1預處理得到的文本特征向量訓練進行聚類,確定短文本集合中各短文本所屬類別,該類別作為短文本的補充特征信息;
S3.基于步驟S1得到的文本特征向量和步驟S2得到的短文本的補充特征信息構建條件變分神經主題模型,得到語料集中的文檔-主題分布以及主題-詞分布;
S4.基于步驟S3得到的主題-詞分布用于短文本主題識別,步驟S3得到的文檔-主題分布結合步驟S2得到短文本的補充特征信息作為短文本的特征表示,用于文本的分類和聚類。
進一步的,所述步驟S2中采用的是K-Means聚類方法。
進一步的,所述步驟S3具體包括以下步驟:
S31.初始化模型參數,需要初始化的模型參數包括超參數{α0,β,λ,N,K},其中α0是狄利克雷先驗分布,β是學習率,λ是KL散度影響因子,N是隱藏層神經元數,K是主題數;
S32.基于步驟S1得到的文本特征向量和步驟S2得到的短文本的補充特征信息構建推斷網絡;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011482778.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種ITO燒結靶材的制備方法
- 下一篇:一種混動汽車的模式切換方法





