[發明專利]一種基于MPI計算框架的并行PLSA方法有效
| 申請號: | 201710141788.1 | 申請日: | 2017-03-10 |
| 公開(公告)號: | CN107451170B | 公開(公告)日: | 2020-04-10 |
| 發明(設計)人: | 鄒超;龍冬陽 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mpi 計算 框架 并行 plsa 方法 | ||
技術領域
本發明涉及自然語言處理領域,更具體地,涉及一種基于MPI計算框架的并行PLSA算法。
背景技術
PLSA算法是被廣泛使用于自然語言處理及數據挖掘的一項基礎技術,被眾多科研工作者用于分析領域熱點和趨勢。它是一種非監督的文本數據挖掘關鍵技術,塑造了文本、話題、詞語三者之間的隱含關系,可以挖掘出文本中的潛在語義信息,因此被廣泛應用于文本聚類、用戶主題發現。然而在大數據的背景下,傳統的單機版本的PLSA算法復雜的建模過程使其難以處理海量數據,因此無法滿足大數據時代的需求。這時候多機的分布式并行PLSA算法被提出。
當前,分布式并行PLSA算法主要通過當前熱門的Hadoop技術來并行,Hadoop技術通過將文檔劃分為多個部分,每臺機器分別處理不同的部分。但是分布式并行PLSA算法是基于EM算法來更新參數的迭代算法,而Hadoop技術是要在每次的迭代就寫回硬盤的,所以在每次迭代時都要讀寫硬盤,因此這種并行方案的速度受到了很大的限制。
發明內容
本發明為解決以上現有技術的并行PLSA算法在每次迭代時需要讀寫硬盤而導致算法執行速度受到限制的缺陷,提供了一種基于MPI計算框架的并行PLSA算法,該方法在每次迭代時無需進行讀寫硬盤的操作,因此能夠加快并行PLSA算法的執行速度。
為實現以上發明目的,采用的技術方案是:
一種基于MPI計算框架的并行PLSA算法,包括以下步驟:
S1.輸入詞頻矩陣;
S2.MPI計算框架環境初始化;
S3.初始化MPI計算框架的執行環境并標識MPI計算框架的各個進程;
S4.MPI計算框架的各個子進程讀入詞頻矩陣;
S5.MPI計算框架的主進程初始化初始概率矩陣P(d|z)、P(w|z)和p(z),并將這三個矩陣的數據廣播到不同的子進程中;其中P(d|z)表示給定主題z下文檔d的概率,P(w|z)表示給定主題z下單詞w的概率,P(z)表示主題z的概率;
S6.MPI計算框架的主進程計算P(d,w)并廣播給所有子進程,P(d,w)表示文檔d和單詞w的聯合概率;
S7.各個子進程根據其所讀入詞頻矩陣的主題分別計算后驗概率P(z|d,w),然后更新其所讀入詞頻矩陣的主題z的p(d|z)、p(w|z)、p(z);
S8.各個子進程將其更新的p(d|z)、p(w|z)、p(z)發送給主進程,主進程更新整體的p(d|z)、p(w|z)、p(z);
S9.根據似然函數的計算公式計算出當前迭代中的p(d|z)、p(w|z)、p(z)然后計算似然函數值,并判斷是否滿足迭代終止條件,若是則輸出p(d|z)、p(w|z)、p(z),否則重復執行步驟S6~S9。
優選地,所述子進程計算后驗概率P(z|d,w)的具體過程如下:
優選地,子進程更新主題z的具體過程如下:
其中n(d,w)和n(d,w')表示文檔d中的單詞w'、w的詞頻總數。
與現有技術相比,本發明的有益效果是:
本發明提供的PLSA算法在每次并行迭代時無需進行讀寫硬盤的操作,而且從主題維度多機并行,因此能夠加快并行PLSA算法的執行速度。
附圖說明
圖1為PLSA的兩種概率圖模型圖。
圖2為PLSA算法的流程圖。
具體實施方式
附圖僅用于示例性說明,不能理解為對本專利的限制;
以下結合附圖和實施例對本發明做進一步的闡述。
實施例1
圖1為PLSA的概率圖模型圖。在該圖模型中,d代表文檔,z代表隱含類別或者主題,w為觀察到的單詞,P(di)表示單詞出現在文檔d的概率,P(zk|di)表示文檔di在主題zk下的單詞的概率,P(wj表示zk)給定主題zk出現單詞wj的進程。并且每個主題在所有詞項上服從多項式分布,而每個文檔在所有的主題上也同樣服從多項式分布。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710141788.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種體育競賽信息發布系統通用平臺
- 下一篇:一種商品自助推送方法及系統





