[發明專利]一種基于詞向量語義分析的海量短文本聚類方法在審
| 申請號: | 201611018402.X | 申請日: | 2016-11-03 | 
| 公開(公告)號: | CN106776713A | 公開(公告)日: | 2017-05-31 | 
| 發明(設計)人: | 繆偉宏;潘嶸 | 申請(專利權)人: | 中山大學 | 
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 | 
| 代理公司: | 廣州粵高專利商標代理有限公司44102 | 代理人: | 林麗明 | 
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 向量 語義 分析 海量 文本 方法 | ||
1.一種基于詞向量語義分析的海量短文本聚類方法,其特征在于,包括以下步驟:
S1:收集海量文本數據,并對每一文本數據進行預處理;
S2:對預處理后的文本進行word2vec模型訓練得到詞向量模型;
S3:將待處理的文本利用得到的詞向量模型處理得到該待處理的文本的向量;
S4:對待處理的文本的向量利用K-Means聚類算法或Dbscan聚類算法進行聚類處理得到聚類結果。
2.根據權利要求1所述的基于詞向量語義分析的海量短文本聚類方法,其特征在于,所述步驟S1的具體過程是:
對收集的文本數據采用基于知識庫的方法對部分詞語進行消歧,包括常規的高頻詞、停用詞、標點符號、表情符號、簡繁體轉換的去除處理。
3.根據權利要求1所述的基于詞向量語義分析的海量短文本聚類方法,其特征在于,所述步驟S3的具體過程如下:
將待處理的文本利用得到的詞向量模型處理得到若干個單詞的詞向量,對每一個單詞的詞向量進行tfidf值計算,以計算出的tfidf值作為word2vec處理的權重,對每一個單詞的詞向量進行word2vec處理并加權求和得到待處理文本的256維度的向量:
其中,doc表示文本向量,Token表示文本的每個單詞的詞向量,n為文本中單詞個數,m為文本詞向量的具體維度為256,Wk,j為第i個單詞在文檔j中的tfidf值。
4.根據權利要求3所述的基于詞向量語義分析的海量短文本聚類方法,其特征在于,所述步驟S4的具體過程如下:
1)從n個單詞中數隨機動態選取k個詞向量作為初始聚類中心;
2)分別計算未選中的詞向量與這k個聚類中心的距離,根據最小距離對這些詞向量進行劃分得到新的聚類;
3)計算第2)中得到的聚類的每一個詞向量的均值作為聚類中心;
4)迭代計算標準測度函數,如當迭代次數達到一定閾值,或者標準測度函數收斂K值不再變化時,算法終止,否則跳轉至步驟2)。
5.根據權利要求3所述的基于詞向量語義分析的海量短文本聚類方法,其特征在于,所述將待處理的文本利用得到的詞向量模型處理得到若干個單詞的詞向量的過程是:對預處理后的文本作為word2vec模型的輸入,詞向量維度設為256,上下窗口為5,利用連續空間詞向量技術CBOW方法進行訓練得到文本的單詞的詞向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611018402.X/1.html,轉載請聲明來源鉆瓜專利網。





