[發明專利]基于非參數VMF混合模型的文本數據聚類方法、裝置及設備有效
| 申請號: | 202010499191.6 | 申請日: | 2020-06-04 |
| 公開(公告)號: | CN111611389B | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 范文濤;侯文娟 | 申請(專利權)人: | 華僑大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06K9/62 |
| 代理公司: | 廈門智慧呈睿知識產權代理事務所(普通合伙) 35222 | 代理人: | 楊唯 |
| 地址: | 361000 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 參數 vmf 混合 模型 文本 數據 方法 裝置 設備 | ||
1.一種基于非參數VMF混合模型的文本數據聚類方法,其特征在于,包括:
S101,獲取待聚類的文本數據集;其中,所述文本數據集包括多個文本,每個文本用詞頻-逆文本頻率指數標準化方法表示為D維的文本向量特征;
S102,使用基于Pitman-Yor過程的非參數VMF混合模型對每個文本進行建模;
S103,通過變分貝葉斯推斷算法估算所述非參數VMF混合模型的模型參數;
S104,根據推斷的所述模型參數,判斷所述非參數VMF混合模型是否收斂;若否,則返回步驟S103,若是,則執行步驟S105;
S105,根據指示因子的后驗概率判斷每個文本的所屬類別,從而根據所屬類別對所述文本進行聚類;其中,所述使用基于Pitman-Yor過程的非參數VMF混合模型對每個文本進行建模,具體包括:
獲取VMF概率分布的概率密度函數;
其中,為位置參數并滿足條件||·||為L2范數的計算;λ為刻度參數并滿足條件λ≥0,維度D≥2,ID/2(λ)為修正的第一類D/2階Bessel函數;
對服從非參數VMF混合模型的每個文本,獲取其概率密度函數表達式;
其中,表示所收集到的含有N個文本的數據集;該非參數VMF混合模型共由無窮多個混合組件組成,每個混合組件對應一個VMF概率分布其中是第k個混合組件的參數,而πk0為相應的混合系數,并滿足條件
為每個文本向量指派一個二元隱變量做為指示因子;其中,當Znk=1時,表明文本向量屬于第k個類別;否則,Znk=0;隱變量的概率分布為:
對所述非參數VMF混合模型中的參數和指派先驗概率分布;其中,采用VMF-Gamma分布作為參數的聯合先驗分布,其表達式如下式所示
其中pg(·)為Gamma分布;
獲得基于Pitman-Yor過程模型的非參數VMF混合模型的全概率表達式為:
其中,非參數VMF混合模型基于采用Stick-Breaking表示方法的Pitman-Yor過程模型構建而成;在基于Stick-Breaking表示方法的Pitman-Yor過程模型中,混合系數πk的表示如下:
服從Beta分布,表達形式如下
其中pb(·)為Beta分布,α為Pitman-Yor過程模型中的折扣參數并滿足條件0≤α≤1,β為密度參數滿足條件β-α。
2.根據權利要求1所述的基于非參數VMF混合模型的文本數據聚類方法,其特征在于,
所述通過變分貝葉斯推斷算法估算所述非參數VMF混合模型的模型參數,以及
根據推斷的所述模型參數,判斷所述非參數VMF混合模型是否收斂;
具體包括:
初始化模型參數;其中,包括初始化截斷層數K=15,初始化超參數0uk1,0vk1,ζk0,αk=0.5,βk=0.5使用K-Means算法初始化rnk;初始化
利用當前的模型參數更新變分后驗以及期望值;
根據更新的期望值獲取更新后的
獲得當前迭代所產生的變分下界;
將當前迭代產生的變分下界與上一次迭代產生的變分下界進行對比以判斷所述非參數VMF混合模型是否收斂。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華僑大學,未經華僑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010499191.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種響應面法優化提取新鮮煙葉FI蛋白的方法
- 下一篇:地下救援車





