[發(fā)明專利]一種基于MPI計算框架的并行PLSA方法有效
| 申請?zhí)枺?/td> | 201710141788.1 | 申請日: | 2017-03-10 |
| 公開(公告)號: | CN107451170B | 公開(公告)日: | 2020-04-10 |
| 發(fā)明(設(shè)計)人: | 鄒超;龍冬陽 | 申請(專利權(quán))人: | 中山大學(xué) |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33 |
| 代理公司: | 廣州粵高專利商標(biāo)代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 mpi 計算 框架 并行 plsa 方法 | ||
1.一種基于MPI計算框架的并行PLSA算法,其特征在于:包括以下步驟:
S1.輸入詞頻矩陣;
S2.MPI計算框架環(huán)境初始化;
S3.初始化MPI計算框架的執(zhí)行環(huán)境并標(biāo)識MPI計算框架的各個進程;
S4.MPI計算框架的各個子進程讀入詞頻矩陣;
S5.MPI計算框架的主進程初始化初始概率矩陣P(d|z)、P(w|z)和p(z),并將這三個矩陣的數(shù)據(jù)廣播到不同的子進程中;其中P(d|z)表示給定主題z下文檔d的概率,P(w|z)表示給定主題z下單詞w的概率,P(z)表示主題z的概率;
S6.MPI計算框架的主進程計算P(d,w)并廣播給所有子進程,P(d,w)表示文檔d和單詞w的聯(lián)合概率;
S7.各個子進程根據(jù)其所讀入詞頻矩陣的主題分別計算后驗概率P(z|d,w),然后更新其所讀入詞頻矩陣的主題z的p(d|z)、p(w|z)、p(z);
S8.各個子進程將其更新的p(d|z)、p(w|z)、p(z)發(fā)送給主進程,主進程更新整體的p(d|z)、p(w|z)、p(z);
S9.根據(jù)似然函數(shù)的計算公式計算出當(dāng)前迭代中的p(d|z)、p(w|z)、p(z)然后計算似然函數(shù)值,并判斷是否滿足迭代終止條件,若是則輸出p(d|z)、p(w|z)、p(z),否則重復(fù)執(zhí)行步驟S6~S9。
2.根據(jù)權(quán)利要求1所述的基于MPI計算框架的并行PLSA算法,其特征在于:所述子進程計算后驗概率P(z|d,w)的具體過程如下:
3.根據(jù)權(quán)利要求1所述的基于MPI計算框架的并行PLSA算法,其特征在于:子進程更新主題z的具體過程如下:
其中n(d,w)和n(d,w')表示文檔d中的單詞w'、w的詞頻總數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中山大學(xué),未經(jīng)中山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710141788.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





