[發明專利]融合短語信息的非參數并行化層次狄利克雷過程主題模型系統在審
| 申請號: | 201811438180.6 | 申請日: | 2018-11-27 |
| 公開(公告)號: | CN109325092A | 公開(公告)日: | 2019-02-12 |
| 發明(設計)人: | 林立暉;饒洋輝 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/30 | 分類號: | G06F16/30;G06F16/35 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 陳偉斌 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 并行化 主題模型 非參數 短語 短語信息 融合 隱含 自然語言處理 定量和定性 人工智能 語義 關系建模 機器學習 主題信息 建模 文本 保留 優化 表現 | ||
1.融合短語信息的非參數并行化層次狄利克雷過程主題模型系統,其特征在于,分為三部分,第一是并行化機制的設計,第二是實時主題調整,第三是通過Copula函數對短語進行隱含關系建模。
2.根據權利要求1所述的融合短語信息的非參數并行化層次狄利克雷過程主題模型系統,其特征在于:所述的并行化機制的設計具體為:
設計了一個管理者-執行者機制,用于同步全局主題信息,實現統一的主題增刪操作;通過執行者線程和管理者線程的輪換,達成流水線式結構,實現高效并行;每次迭代中,執行者線程更新自身的主題詞信息,在迭代結束后匯報給管理者線程,管理者通過各線程的主題詞信息進行主題增刪決策。
3.根據權利要求1所述的融合短語信息的非參數并行化層次狄利克雷過程主題模型系統,其特征在于:所述的實時主題調整具體為:
假設“一個主題在多次迭代后的詞語數目依舊低于某個閾值,則認為該主題已經消亡,需要刪除主題”和“如果在某次迭代后,仍然有詞語未被分配主題,則認為主題數目不足,需要增加主題”,設計主題實時調整機制。
4.根據權利要求3所述的融合短語信息的非參數并行化層次狄利克雷過程主題模型系統,其特征在于:所述的主題實時調整中,主題增加的相關閾值設置如下:
ε=1%*(MaximumIteration)
p=1%*(NumberOfWordsInDataset)
即當經過ε次迭代后,若主題下的詞語數目少于p,則刪除該主題。
5.根據權利要求1所述的融合短語信息的非參數并行化層次狄利克雷過程主題模型系統,其特征在于:所述的通過Copula函數對短語進行隱含關系建模具體為:
引入copula函數對短語的隱含關系進行建模:
根據Sklar定理:
Theorem 3.1 Given a p-dimensional with univariate
margins F1,F2,...,Fp,there always exist a copula
function C such that for all combinations of random
variables(x1,x2,…,xp)∈Rp,
F(x1,...,xp)=C(F1(x1),...,Fp(xp)) (5)
如果在文檔中采樣得到長度為p的短語,那么從copula函數中采樣的到一個長度相等的向量U={u1,u2,...,up},并通過由Sklar定理所推導的以下等式轉換成詞語分布上的樣本:
C(u1,u2,...,up)=F(F-1(u1),...,F-1(up))
通過分位數和概率積分變換來計算出copula樣本U在詞語分布上的形式:
將上面的計算等式應用到HDP中,計算短語中每個單詞的主題:
Then we transformed U=(u1,...,uL)into
Z=(z1,...,zL)where zi,i∈{1,...,L}is the
topic assignment of the ith word in phrase.Once
zi=zj,i,j∈{1,...,L},i≠j,then we push the
ith and the jth word into or remove from X′dksimul-taneously.
根據Copula函數所提供的相關性,將同一短語中的所有單詞的主題限制在一個較小的范圍內,彼此之間互相接近,這也符合語言學的直觀理解:“生成同一個短語的詞語的主題有較大概率是相似甚至相同的”。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811438180.6/1.html,轉載請聲明來源鉆瓜專利網。





