[發明專利]融合短語信息的非參數并行化層次狄利克雷過程主題模型系統在審
| 申請號: | 201811438180.6 | 申請日: | 2018-11-27 |
| 公開(公告)號: | CN109325092A | 公開(公告)日: | 2019-02-12 |
| 發明(設計)人: | 林立暉;饒洋輝 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/30 | 分類號: | G06F16/30;G06F16/35 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 陳偉斌 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 并行化 主題模型 非參數 短語 短語信息 融合 隱含 自然語言處理 定量和定性 人工智能 語義 關系建模 機器學習 主題信息 建模 文本 保留 優化 表現 | ||
本發明涉及機器學習中的自然語言處理和人工智能的技術領域,更具體地,涉及融合短語信息的非參數并行化層次狄利克雷過程主題模型系統。融合短語信息的非參數并行化層次狄利克雷過程主題模型系統,其中,分為三部分,第一是并行化機制的設計,第二是實時主題調整,第三是通過Copula函數對短語進行隱含關系建模。本發明提出的模型在加速了HDP計算的同時,對文本中的短語的隱含關系也進行了建模。相比于現有技術,我們在保留了HDP非參數化特性的前提下,實現了并行化,并且彌補了傳統主題模型的缺點,融合了短語語義,克服了串行HDP算力要求高,主題信息有所缺失的不足之處,優化了模型的定量和定性表現性能。
技術領域
本發明涉及機器學習中的自然語言處理和人工智能的技術領域,更具體地,涉及融合短語信息的非參數并行化層次狄利克雷過程主題模型系統。
背景技術
現有的主題模型主要分為兩類,參數方法和非參數方法,前者對應的是概率潛在語義分析模型(Probablistic Latent SemanticAnalysis)和潛在狄利克雷分配(LatentDirichlet Allocation),后者對應的是傳統層次狄利克雷過程(Hierarchical DirichletProcess)。目前商業上應用較多的是傳統的參數化主題模型,但是這種方法需要人工指定參數,而參數對最終的挖掘效果影響較大,在實際中很難調優。騰訊公司已經發布的*LDA項目則是基于計算機集群實現的大規模并行化主題模型,用于分析用戶在社交媒體上產生的大量文本。
概率潛在語義分析(以下簡稱PLSA)是最早提出的使用概率分布對文本生成過程進行建模的方法之一,也是傳統主題模型的發展基礎。PLSA從概率統計的角度對文本進行了分析,認為每篇文檔中的單詞都屬于一個特定的主題,每個主題控制著不同詞語的概率分布,且文檔本身服從一定的概率分布。因此,在PLSA中,一篇文檔的生成過程如圖1所示。
其中P(di)是文檔di的出現概率,P(zi|di)是給定文檔di的條件下主題zi的出現概率,P(wi|zi)是給定主題zi的情況下詞語wi的出現概率。但是這種方法只能夠在已有文本集上挖掘隱含信息,無法應對新數據,且文本數越多,PLSA的參數也就越多,不利于大規模應用。
隱含狄利克雷分配(以下簡稱LDA)則是在PLSA模型的基礎上,為文檔和主題分布添加了先驗知識,假設文檔和主題所服從的概率分布的參數同時服從于一個共軛先驗分布。LDA相比于PLSA更加符合概率統計規律,同時引入先驗知識,,能夠較準確地發掘出文本的主題信息。LDA模型的生成過程如圖2所示。
其中z和w就是PLSA中的詞語和主題,θ和φ是主題和詞語所服從的概率分布的參數,α和β是這兩個參數所服從的先驗概率分布的參數。可以看出,相比于PLSA,LDA增加了兩個超參數參數α和β,避免了PLSA需要根據特定文本數據集統計得出文檔和主題分布的缺點,能夠加快挖掘的效率和效果。但是,LDA的問題也恰恰在于參數的確定,當通過α和β的值能夠很好地生成近似于真實文檔和主題分布參數θ和φ,且人為設置主題數目恰當時,模型的效果將很好,反之則無法得出有意義的聚類效果。
層次狄利克雷過程(以下簡稱HDP)則是最主要的非參數主題模型,其生成過程如圖3所示。它通過將狄利克雷過程設置為先驗概率分布,生成下一級子狄利克雷過程,通過采樣挑選出主題分布的參數,再確定詞語。由于狄利克雷過程本身的離散性和其對概率測度空間劃分的無限性(但是劃分后每個原子的和為1,符合概率分布),能夠自動確定最佳的聚類數目,即主題模型中的主題數,避免了人工指定主題數目的弊端,是一種有效的非參數主題模型。但是HDP本身的參數推斷相比于PLSA和LDA是非常復雜的,傳統串行算法的運行速度非常慢,無法有效應對大量的文本。
上述的主題模型都有各自最明顯的缺點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811438180.6/2.html,轉載請聲明來源鉆瓜專利網。





