[發(fā)明專利]一種基于詞嵌入的高斯LDA的優(yōu)化求解方式有效
| 申請?zhí)枺?/td> | 201811301465.5 | 申請日: | 2018-11-02 |
| 公開(公告)號: | CN109597875B | 公開(公告)日: | 2022-08-23 |
| 發(fā)明(設(shè)計)人: | 許振豪;譚北海 | 申請(專利權(quán))人: | 廣東工業(yè)大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510006 廣東省*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 嵌入 lda 優(yōu)化 求解 方式 | ||
1.一種基于詞嵌入的高斯LDA的優(yōu)化求解方法,其特征在于:所述優(yōu)化求解方法的步驟如下:
S1:輸入文檔集D,設(shè)置迭代次數(shù)T、模型超參數(shù)α,γ,同時初始化nv,k,nk,nd,k,nd;α表示狄利克雷分布的超參數(shù);γ表示逆威沙特分布的偽計數(shù);nv,k表示詞嵌入v被賦予主題k的數(shù)量;nk表示被賦予主題k的所有詞嵌入數(shù)量;nd,k表示文檔d中被賦予主題k的詞嵌入數(shù)量;nd表示文檔d的詞嵌入數(shù)量;
S2:采用逆威沙特分布W-1(Ψ,γ)求主題-詞嵌入分布的方差∑k、采用多元高斯分布N(μ=0,∑k)求主題-詞嵌入分布的均值μk,采用狄利克雷分布Dir(α)求出文檔-主題分布θd,對該文檔下的每個詞嵌入分配一個主題,采用多元高斯分布抽取文檔d的每個位置的詞嵌入,得到當前詞嵌入的主編號;Ψ表示正定的比例矩陣;
S3:更新μk,γk,kk,利用Cholesky矩陣分解計算矩陣Ψk,根據(jù)矩陣Ψk和方差∑k計算后驗預測概率分布;kk表示逆威沙特分布的偽計數(shù)1;γk表示逆威沙特分布的偽計數(shù)2;
S4:采用Alias采樣進行迭代采樣,直到迭代結(jié)束,輸出參數(shù):文檔-主題概率分布和主題-詞嵌入概率分布。
2.根據(jù)權(quán)利要求1所述的基于詞嵌入的高斯LDA的優(yōu)化求解方法,其特征在于:所述S1的具體步驟如下:
S11:輸入文檔集D,通過分詞且訓練成詞嵌入序列Vd;
S12:根據(jù)文檔集D,設(shè)置迭代次數(shù)T、模型超參數(shù)α,γ;
S13:初始化統(tǒng)計量,為文檔集D中每個詞嵌入v隨機賦予一個主題編號,即z=randomtopic index k,k∈[1,...K],每個文檔d∈[1,...,D],并將nv,k,nk,nd,k,nd初始化;k表示主題編號變量、K表示主題邊界值;
其中:nv,k表示詞嵌入v被賦予主題k的數(shù)量;nk表示被賦予主題k的所有詞嵌入數(shù)量;nd,k表示文檔d中被賦予主題k的詞嵌入數(shù)量;nd表示文檔d的詞嵌入數(shù)量、α表示狄利克雷分布的超參數(shù)、γ表示逆威沙特分布的偽計數(shù)。
3.根據(jù)權(quán)利要求2所述的基于詞嵌入的高斯LDA的優(yōu)化求解方法,其特征在于:所述S2的具體步驟如下:
S21:采用逆威沙特分布W-1(Ψ,γ)抽取主題-詞嵌入分布的方差∑k,并根據(jù)∑k,采用多元高斯分布N(μ=0,∑k)中抽取主題-詞嵌入分布的均值μk;
S22:對每個文檔d=[1,...,D],采用狄利克雷分布Dir(α)分布中抽取文檔-主題分布θd,在該文檔下,每個詞嵌入i∈[1,...,Nd];Nd表示文檔d的第N個詞;
S23:對于文檔d的每個位置的詞嵌入i∈[1,...,Nd]分配一個主題zd,i~Mult(θd),采用多元高斯分布N(μk,∑k)為該文檔抽取詞嵌入vd,i;
S24:對文檔中的每個詞嵌入vd,i,得到當前詞嵌入的主題編號,t=zd,i;t表示詞嵌入vd,i的主題;Mult(θd)表示文檔d的主題分布;
其中:vd,i表示文檔d中第i個詞嵌入。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東工業(yè)大學,未經(jīng)廣東工業(yè)大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811301465.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





