[發明專利]一種基于狄利克雷變分自編碼器的短文本主題識別方法有效
| 申請號: | 202011482778.2 | 申請日: | 2020-12-15 |
| 公開(公告)號: | CN112597769B | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 饒洋輝;丁誠 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 陳偉斌 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 狄利克雷變分 編碼器 文本 主題 識別 方法 | ||
1.一種基于狄利克雷變分自編碼器的短文本主題識別方法,其特征在于:包括以下步驟:
S1.將短文本數據集進行預處理,分詞、去停用詞、標點符號和數字,得到數據集的文本特征向量;
S2.基于步驟S1預處理得到的文本特征向量訓練進行聚類,確定短文本集合中各短文本所屬類別,該類別作為短文本的補充特征信息;
S3.基于步驟S1得到的文本特征向量和步驟S2得到的短文本的補充特征信息構建條件變分神經主題模型,得到語料集中的文檔-主題分布以及主題-詞分布;
S4.基于步驟S3得到的主題-詞分布用于短文本主題識別,步驟S3得到的文檔-主題分布結合步驟S2得到短文本的補充特征信息作為短文本的特征表示,用于文本的分類和聚類。
2.根據權利要求1所述的一種基于狄利克雷變分自編碼器的短文本主題識別方法,其特征在于:所述步驟S2中采用的是K-Means聚類方法。
3.根據權利要求1所述的一種基于狄利克雷變分自編碼器的短文本主題識別方法,其特征在于:所述步驟S3具體包括以下步驟:
S31.初始化模型參數,需要初始化的模型參數包括超參數{α0,β,λ,N,K},其中α0是狄利克雷先驗分布,β是學習率,λ是KL散度影響因子,N是隱藏層神經元數,K是主題數;
S32.基于步驟S1得到的文本特征向量和步驟S2得到的短文本的補充特征信息構建推斷網絡;
S33.基于步驟S32構建的推斷網絡得到的隱向量和步驟S2得到的短文本的補充特征信息構建生成網絡;
S34.使用主題空間的冗余抑制解決主題冗余的問題。
4.根據權利要求3所述的一種基于狄利克雷變分自編碼器的短文本主題識別方法,其特征在于:所述步驟S32中構建推斷網絡包括以下步驟:
S321.將步驟S1得到的文本特征向量和步驟S2的補充特征信息作為推斷網絡的輸入;
S322.將步驟S321通過線性連接層、Relu激活函數和dropout層得到隱藏層向量,隱藏層向量維度由超參數N決定;
S323將步驟S322得到的隱藏層向量通過Batchnorm層,線性連接層,再經過softplus激活函數得到后驗分布的參數α;
S324.基于步驟S323得到的后驗分布參數α,使用重參數技巧得到文檔-主題分布;
S325.計算步驟S313得到的后驗分布與狄利克雷先驗分布的KL散度。
5.根據權利要求4所述的一種基于狄利克雷變分自編碼器的短文本主題識別方法,其特征在于:所述步驟S324中使用拒絕采樣重參數技巧或者逆累積分布重參數技巧得到文檔-主題分布。
6.根據權利要求4所述的一種基于狄利克雷變分自編碼器的短文本主題識別方法,其特征在于:所述步驟S325中KL散度采的計算公式如下文所示:
其中Γ是gamma函數,Ψ是digamma函數,K是主題數,αk是后驗分布參數,是先驗分布參數。
7.根據權利要求6所述的一種基于狄利克雷變分自編碼器的短文本主題識別方法,其特征在于:所述步驟S33中構建生成網絡包括以下具體步驟:
S331.將步驟S324得到的文檔-主題分布通過線性連接層、Batchnorm層得到隱藏層向量,該步驟中的可訓練矩陣W為主題-詞分布;
S333.將步驟S332得到的是隱藏層向量,經過softmax激活函數得到生成短文本的概率;
S334.基于步驟S333生成短文本的概率,使用對數似然作為誤差函數,
其中V是詞表大小,log(p(xv|zv))是生成每個單詞的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011482778.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種ITO燒結靶材的制備方法
- 下一篇:一種混動汽車的模式切換方法





