[發明專利]一種文本聚類方法、文本聚類裝置及終端設備在審
| 申請號: | 201811495672.9 | 申請日: | 2018-12-07 |
| 公開(公告)號: | CN109766437A | 公開(公告)日: | 2019-05-17 |
| 發明(設計)人: | 劉志勇;吳又奎;任曉德 | 申請(專利權)人: | 中科恒運股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27 |
| 代理公司: | 石家莊國為知識產權事務所 13120 | 代理人: | 秦敏華 |
| 地址: | 050090 河北省石家莊市新石*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚類 文本聚類 文本 文本特征 文本向量 終端設備 詞向量 分詞預處理 聚類結果 聚類模型 詞轉換 準確率 預設 疊加 申請 學習 | ||
1.一種文本聚類方法,其特征在于,包括:
獲取至少兩個待聚類文本,并分別對每個待聚類文本進行分詞預處理得到多個文本特征詞;
利用Word2vec分別將每個文本特征詞轉換成詞向量,并將所述待聚類文本中的所有詞向量進行疊加得到所述待聚類文本的文本向量;
利用預設的聚類模型對所述待聚類文本的文本向量進行聚類,得到聚類結果。
2.如權利要求1所述的文本聚類方法,其特征在于,所述分別對每個待聚類文本進行分詞預處理得到多個文本特征詞,包括:
去除所述訓練文本中的標點符號得到第一預處理文本;
去除所述第一預處理文本中的停用詞得到第二預處理文本;
對所述第二預處理文本進行分詞處理得到多個文本特征詞。
3.如權利要求1所述的文本聚類方法,其特征在于,所述將所述待聚類文本中的所有詞向量進行疊加得到所述待聚類文本的文本向量,包括:
利用TF-IDF算法計算每個文本特征詞的權值;
將所述文本特征詞的詞向量乘以該文本特征詞對應的權值得到所述文本特征詞的特征向量;
將所有的文本特征詞的特征向量進行疊加得到所述待聚類文本的文本向量。
4.如權利要求1所述的文本聚類方法,其特征在于,所述利用預設的聚類模型對所述待聚類文本的文本向量進行聚類,得到聚類結果,包括:
獲取初始化參數,所述初始化參數包括預設閾值和預設學習率;
從所有的文本向量中選取一個文本向量標記為中心向量,將所有的文本向量中除所述中心向量外的文本向量標記為待聚類向量,并依次將每個待聚類向量輸入所述聚類模型進行聚類;
在所有的待聚類向量均已輸入所述聚類模型之后,輸出聚類結果。
5.如權利要求4所述的文本聚類方法,其特征在于,所述依次將每個待聚類向量輸入所述聚類模型進行聚類,包括:
通過netij=WiXj計算所述待聚類向量與所述中心向量之間的激活值,所述netij為第j個待聚類向量與第i個中心向量之間的激活值,所述Wi為第i個中心向量,所述Xj為第j個待聚類向量;
從計算出的所述待聚類向量與所述中心向量之間的所有激活值中選擇最大的激活值,將所述最大的激活值對應的中心向量作為目標向量,并判斷所述最大的激活值是否大于所述預設閾值;
若所述最大的激活值大于所述預設閾值,則利用Wt=Wt+ηXj對所述目標向量進行更新,所述Wt為所述目標向量,所述η為所述預設學習率;
若所述最大的激活值小于或等于所述預設閾值,則將所述待聚類向量標記為中心向量,并將中心向量的個數加1。
6.如權利要求5所述的文本聚類方法,其特征在于,在得到聚類結果之后,還包括:
獲取所述聚類結果中的中心向量以及每一類中包含的文本向量,并統計中心向量的個數,將所述中心向量的個數作為類的個數;
利用計算聚類指數,并判斷所述聚類指數是否在預設范圍內;
若所述聚類指數不在預設范圍內,則重新利用預設的聚類模型對所述待聚類文本的文本向量進行聚類;
其中,所述DB為所述聚類指數,所述K為所述類的個數,所述Dm表示第m類中所有文本向量到第m類的中心向量的平均距離,所述Dn表示第n類中所有文本向量到第n類的中心向量的平均距離,所述Cmn表示第m類的中心向量與第n類的中心向量之間的距離。
7.如權利要求1所述的文本聚類方法,其特征在于,在利用預設的聚類模型對所述待聚類文本的文本向量進行聚類之前,還包括:
對所述文本向量進行歸一化處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科恒運股份有限公司,未經中科恒運股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811495672.9/1.html,轉載請聲明來源鉆瓜專利網。





