[發明專利]一種基于詞嵌入的高斯LDA的優化求解方式有效
| 申請號: | 201811301465.5 | 申請日: | 2018-11-02 |
| 公開(公告)號: | CN109597875B | 公開(公告)日: | 2022-08-23 |
| 發明(設計)人: | 許振豪;譚北海 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510006 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 嵌入 lda 優化 求解 方式 | ||
本發明公開了一種基于詞嵌入的高斯LDA的優化求解方法,該方法如下:輸入文檔集D,設置迭代次數T、模型超參數α,γ,初始化nv,k,nk,nd,k,nd;用逆沙威特分布W?1(Ψ,γ)求主題?詞嵌入分布的方差Σk、用多元高斯分布N(μ=0,Σk)求主題?詞嵌入分布的均值μk,用狄利克雷分布Dir(α)求出文檔?主題分布θd,對該文檔下的每個詞嵌入分配一個主題,用多元高斯分布抽取該位置的詞嵌入,得到當前詞嵌入的主編號;更新μk,γk,kk,利用Cholesky矩陣分解計算矩陣Ψk,根據矩陣Ψk和方差Σk計算后驗預測概率分布;采用Alias采樣進行迭代采樣,直到迭代結束,輸出文檔?主題概率分布和主題?詞嵌入概率分布。本發明能在不失精確度的情況下,提高計算速度和采樣速度,進而提高自然語言處理效率。
技術領域
本發明涉及自然語言領域,更具體地,涉及一種基于詞嵌入的高斯LDA的優化求解方式。
背景技術
隨著互聯網技術的普及,社交媒體、門戶網站和單位機關每天都有海量的文本數據產生。這些未經處理的文本數據中存在許多有益、重要的信息,卻也存在大量的干擾信息,使得用戶難以從中得到自己想要的信息。如果能夠對文本進行更高級的抽象化,用戶就能更高效的獲取所需的文本信息。對文本數據進行抽象化處理的過程可以描述為自然語言處理中的語義分析,其中常用的語義分析手段是文本聚類。文本聚類是文本分析十分重要的技術,其能夠將數量巨大的非機構化文本數據進行總結和一定程度地歸類,從而幫助用戶更便捷地獲取主要信息。文本聚類在語義分析,情感分析,文本分類、輿情分析和個性化推薦等領域有廣泛應用。
在文本分析過程中,傳統的特征提取方法主要有文檔詞頻、卡方、互信息、信息增益等。這些方法的一個共同特點是基于詞頻,并且采用的是一元語法模型,即假設詞之間是獨立同分布的,通過計算詞項與類型之間存在的關系,對特征詞進行提取,達到對文本進行總結的目的。
主題模型也是文本聚類的一種,經常用于自動抽象化海量文本的特征,發掘文本中潛在的語義,將文本語料從詞空間映射到主題空間,得到每個文本的主題概率分布,使文本具有更好的解釋性。LDA模型的優點是能夠很好的處理傳統方法無法解決的多義詞和同義詞等問題。雖然LDA主題模型有很好的解釋性,但是其模型基礎依舊是詞袋模型,即分析過程中,詞與詞之間是獨立存在的。
詞嵌入是近年用來做文本分析比較常用的表示方法,通過神經網絡訓練,將每個是離散變量的詞訓練成連續變量,即每個詞都由一個向量表示,稱之為詞嵌入。由于詞嵌入的每個維度都刻畫了詞本身的特征屬性,于是詞嵌入能夠很好地表達詞語的語義。因為使用的模型本身對詞頻的敏感度較低,因此也具有較好的泛化能力。但現有技術采用LDA+W2V技術,使用LDA來解釋詞嵌入等式的每一個偏移權加項,讓詞嵌入有了更好的解釋性。LDA+W2V存在的變化主要是,原本在離散空間的主題-詞嵌入的多項式分布,變為連續空間的多元高斯分布。導致其在海量文本數據下,其存在計算時間長,處理效率低下。且傳統Gibbs采樣處理方法存在在采樣初始階段,更新速度慢的問題。每次更新都需要重新計算參數,或者新的采樣接收舊樣本,使得全局參數的更新速度緩慢。雖然在迭代一定量次數之后更新速度會有所改善,但是實驗證明,采樣初期的上千次采樣結果,因為效率低下,通常被實驗者棄用。
發明內容
本發明為了解決傳統的自然語言處理計算時間長,處理效率低下的問題,提供了一種基于詞嵌入的高斯LDA的優化求解方法,其能在采樣初始階段樣本的加快更新速度、提高計算速度。
為實現上述本發明目的,采用的技術方案如下:一種基于詞嵌入的高斯LDA的優化求解方法,所述該優化求解方法的步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811301465.5/2.html,轉載請聲明來源鉆瓜專利網。





