[發明專利]基于狄利克雷多項混合模型的長文本輔助短文本的文本聚類方法有效
| 申請號: | 201710504980.2 | 申請日: | 2017-06-28 |
| 公開(公告)號: | CN107798043B | 公開(公告)日: | 2022-05-03 |
| 發明(設計)人: | 黃瑞章;閆盈盈;馬燦;徐立洋;丁志遠;王瑞;黃庭;劉博偉 | 申請(專利權)人: | 貴州大學;貴州耕云科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京睿智保誠專利代理事務所(普通合伙) 11732 | 代理人: | 周新楣 |
| 地址: | 550025 貴州省貴*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 狄利克雷 多項 混合 模型 文本 輔助 方法 | ||
1.一種基于狄利克雷多項混合模型的長文本輔助短文本的文本聚類方法,其特征在于,包括如下步驟:
1)將主題相關的長文本集與短文本集進行文本預處理:進行分詞,去停用詞、低頻詞及標點數字;
2)基于狄利克雷多項混合模型構建主題模型:構建得到主題模型,主題模型:給定一個包含L篇長文本和S短篇文章的數據集,每一篇長文本表示為xl,短文本表示為xs;針對長文本,用一個參數為ω伯努利分布生成有用判別詞和無用噪聲詞的標簽二進制向量γ,xl(1-γ)為長文本的無用噪聲部分的表示向量,xlγ為其有用判別部分的表示向量;所有的長文本的無用噪聲表示xl(1-γ)由一個統一的背景主題詞分布φ0產生,其中,φ0由狄利克雷分布λ產生;長文本的有用判別部分和短文本共享主題生成;首先,長文本的有用判別部分和短文本共享其主題分布的先驗參數α,α分別生成長文本集的主題分布θL和短文本集的主題分布θs,長文本主題分布θL中采樣的長文本和短文本的主題zl,短文本集的主題分布θs中采樣的長文本和短文本的主題zs,最終利用主題zl和主題zs,與主題詞分布φ分別產生長文本的有用判別表示向量xlγ和短文本表示xs,其中φ中包含k個主題詞分布φk,φk由共同的狄利克雷分布β產生;;
α表示狄利克雷分布的參數,是一個向量,維度等于主題的個數;β,λ表示狄利克雷分布的參數,維度等于語料庫詞匯總數;ω表示伯努利分布的參數,表示一個詞為有用詞的概率;θL表示長文本集的主題分布;θS短文本集的主題分布;短文本集詞語與長文本集有用詞形成的主題-詞語分布;φ0噪音詞的詞語分布,模型假設長文本中的噪音詞來源于一個主題;zl表示從θL中采樣的長文本和短文本的主題;zs表示從θS中采樣的長文本和短文本的主題;γ伯努利分布的結果,如果γ=1為該詞為有用詞,如果γ=0為該詞為噪音詞;xl,xs分別表示一篇長文本,短文本;L長文本總篇數;S短文本總篇數;K初始化時主題的總數目;
3)模型的參數估計:基于主題模型(1),利用Blocked Gibbs采樣算法,采樣長短文本共同的詞-主題分布,長文本集的主題分布、噪音詞分布,以及短文本的主題分布;
4)根據主題進行聚類:將Blocked Gibbs采樣算法運行1000-2000次后,得到目標短文本的主題分配情況并進行文本聚類;
首先初始化模型參數;需要初始化的模型參數包括超參數{α,β,λ,ω}和隱藏變量{γ,zl,zs};初始化模型參數之后,Blocked Gibbs sampling的推斷過程如下:
1)更新詞類型標識γ;重復下列的Metropolis-Hasting算法R次:從[0,V-1]中隨機選擇一個詞并標識為γold,改變γoldγnew。γnew通過下列概率進行轉移;
其中,P(γ|DL,zl)∝P(DL|γ,zl)·p(γ);P(DL|γ,zl)在上述公式出已給出;
2)更新長文本有用詞和短文本的主題-主題分布φ;對于k={1,2,...,k},如果k不在中,從具有參數β的狄利克雷分布采用φk,否則,從具有如下參數的狄利克雷分布中采樣φk;
3)更新長文本燥音詞音分布φ;從具有如下參數的狄利克雷分布中采樣噪音詞分布;
4)更新長文本集分布θL;具有如下參數的狄利克雷參數中采樣主題分布;
其中I(z1=k)是一個標識函數;當z1=k時,I(z1=k)=1;
5)更新短文本集分布θS;從具有如下參數的狄利克雷參數中采樣主題分布:
其中I(zs=k)是一個標識函數;當zs=k時,I(zs=k)=1;
6)更新每篇長文本的主題z1,其中l={1,2,...,L};從離散分布中采樣,其參數是{qsl,...,qsK},滿足:
7)更新每篇短文本的主題zs,其中s={1,2,...,S};從帶有參數{qsl,...,qsK}的離散分布中采樣,其中參數滿足如下條件:
需要注意的是:假設模型估計的類的數目為K*,其值為向量的大小,小于初始化的K值。
2.如權利要求1所述的基于狄利克雷多項混合模型的長文本輔助短文本的文本聚類方法,其特征在于,所述步驟(3)進一步包括下列具體步驟:
首先初始化模型參數,需要初始化的模型參數包括超參數{α,β,λ,ω}和隱藏變量{γ,zl,zs};初始化模型參數之后,Blocked Gibbs sampling的推斷過程如下:
(a)更新詞類型標識γ;
(b)更新長文本有用詞和短文本的主題-主題分布
(c)更新長文本噪音詞分布
(d)更新長文本集分布θL;
(e)更新短文本集分布θS;
(f)更新每篇長文本的主題zl,其中l={1,2,…,L};
(g)更新每篇短文本的主題zs,其中s={1,2,…,S};
其中,α表示狄利克雷分布的參數,是一個向量,維度等于主題的個數;β,λ表示狄利克雷分布的參數,維度等于語料庫詞匯總數;ω表示伯努利分布的參數,表示一個詞為有用詞的概率;θL表示長文本集的主題分布;θS短文本集的主題分布;短文本集詞語與長文本集有用詞形成的主題-詞語分布;噪音詞的詞語分布,模型假設長文本中的噪音詞來源于一個主題;zl表示從θL中采樣的長文本和短文本的主題z;zs表示從θS中采樣的長文本和短文本的主題;γ伯努利分布的結果,如果γ=1為該詞為有用詞,如果γ=0為該詞為噪音詞;
zl={z1,…,zL}是長文本集中L篇文檔的主題標簽集合,zs={z1,…,zS}是短文本集中S篇文檔的主題標簽集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州大學;貴州耕云科技有限公司,未經貴州大學;貴州耕云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710504980.2/1.html,轉載請聲明來源鉆瓜專利網。





