[發明專利]大型語料庫上的快速文本聚類方法有效
| 申請號: | 201711290927.3 | 申請日: | 2017-12-08 |
| 公開(公告)號: | CN108228721B | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 李林蔚;郭良琛;馬會心;何震瀛;荊一楠;王曉陽 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/35 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大型 語料庫 快速 文本 方法 | ||
1.一種大型語料庫上的快速文本聚類的方法,其特征在于,具體步驟如下:
(1)給定由大量文檔組成的文本數據集D,首先為后續的連乘計算構建索引;
在索引中,第i個元素ai的值為建立了這樣一類索引后,的值通過單次除法完成
(2)由用戶給出超參數α,β以及聚類過程中的總分類數K,使用基于吉布斯采樣的狄利克雷多項混合模型,對每個文檔所屬的類別編號進行推斷,具體過程為:
(2.1)對于語料庫中的任一文檔為其隨機分配一個類別編號zi;
(2.2)對于所有文檔進行遍歷,并且根據語料庫中其它文檔的當前分類情況,根據狄利克雷后驗分布公式,采樣更新文檔i所屬的類別,其服從的分布為:
分布公式經簡化后的結果如下:
(2.3)針對需要采樣的分布p(x),選取更易采樣且滿足如下性質的提案分布q(x):若對于第i步以q(xi|xi-1)的轉移概率構建的馬爾可夫鏈,其轉移足夠多步之后各狀態的概率分布收斂于p(x);
(2.4)采樣獲得初始樣本x0~q(x);
(2.5)采樣獲得xcand~q(xcand|xi-1),計算接受概率為:
并以上述概率接受這個采樣結果,即令xi為xcand,不接受,則令xi為xi-1;
(2.6)重復步驟(2.5)至指定次數;
(2.7)返回當前的xi作為采樣結果;
(2.8)重復步驟(2.2-2.7),直至收斂;
(2.9)以每一文檔被分配的類別編號作為標準給出聚類結果;
公式中所用的符號及含義如下:
M表示語料庫中的文檔數目;
T表示詞匯中不同單詞的數目;
K表示聚類數目;
α,β表示狄利克雷分布的先驗參數;
表示第i篇文檔;
zi表示第i篇文檔的聚類編號;
nkt表示第k個聚類中單詞t的出現次數;
nk表示第k個聚類中單詞的總個數;
Nit表示第i個文檔中單詞t的出現次數;
Ni表示第i個文檔中單詞的總個數;
mk表示第k個聚類中文檔個數;
表示第k個聚類中的詞匯分布;
θ表示語料庫中所有聚類的分布。
2.根據權利要求1所述的方法,其特征在于,在采樣過程中,對于形式為的計算,若在兩輪迭代間只有少量f(nkw)的值發生變化,則僅針對nkw值發生變化的w進行計算。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711290927.3/1.html,轉載請聲明來源鉆瓜專利網。





