[發明專利]一種文本聚類方法、文本聚類裝置及終端設備在審
| 申請號: | 201811508368.3 | 申請日: | 2018-12-11 |
| 公開(公告)號: | CN109739978A | 公開(公告)日: | 2019-05-10 |
| 發明(設計)人: | 劉志勇;任曉德;吳又奎 | 申請(專利權)人: | 中科恒運股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 石家莊國為知識產權事務所 13120 | 代理人: | 秦敏華 |
| 地址: | 050090 河北省石家莊市新石*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本聚類 聚類 轉換模型 文本 分詞預處理 文本特征 文本向量 訓練文本 終端設備 詞向量 詞語 聚類結果 詞轉換 預設 疊加 申請 學習 | ||
1.一種文本聚類方法,其特征在于,包括:
獲取訓練文本,并對所述訓練文本進行分詞預處理得到多個待訓練詞語;
利用所述待訓練詞語對預設的轉換模型進行訓練,得到訓練后的轉換模型;
獲取待聚類文本,對所述待聚類文本進行分詞預處理得到多個文本特征詞;
利用所述訓練后的轉換模型分別將所述文本特征詞轉換為詞向量,并將所述待聚類文本中的所有詞向量進行疊加得到所述待聚類文本的文本向量;
對所述文本向量進行聚類得到聚類結果。
2.如權利要求1所述的文本聚類方法,其特征在于,所述對所述訓練文本進行分詞預處理得到多個訓練詞語,包括:
去除所述訓練文本中的標點符號得到第一預處理文本;
去除所述第一預處理文本中的停用詞得到第二預處理文本;
對所述第二預處理文本進行分詞處理得到多個文本特征詞。
3.如權利要求1所述的文本聚類方法,其特征在于,所述利用所述待訓練詞語對預設的轉換模型進行訓練,得到訓練后的轉換模型,包括:
分別統計每個待訓練詞語在所述訓練文本中出現的詞頻,并根據所述詞頻構建哈夫曼樹;
獲取初始信息,并根據所述初始信息和構建的哈夫曼樹,對所述待訓練詞語進行訓練,得到訓練后的轉換模型;
其中,所述初始信息包括預設窗口、初始參數向量和初始詞向量。
4.如權利要求3所述的文本聚類方法,其特征在于,所述根據所述初始信息和構建的哈夫曼樹,對所述待訓練詞語進行訓練,得到訓練后的轉換模型,包括:
按照所述初始信息中的預設窗口獲取所述待訓練詞語的上下文,并計算所述待訓練詞語的上下文中包含的所有待訓練詞語的詞向量之和,得到和向量;
在所述哈夫曼樹中確定從根節點到所述待訓練詞語的路徑;
利用貝葉斯公式,并基于所述和向量計算所述路徑對應的概率;
對所述概率取對數計算得到目標函數,將所述目標函數作為訓練后的轉換模型。
5.如權利要求4所述的文本聚類方法,其特征在于,在對所述概率取對數計算得到目標函數之后,還包括:
將所述目標函數對所述初始信息中的初始參數向量求導得到第一增量,并利用θ’=θ0+αη1對所述初始參數向量進行更新;
將所述目標函數對所述和向量求導得到第二增量,并利用X’=X0+βη2對所述初始詞向量進行更新;
其中,所述θ’為更新后的參數向量,所述θ0為所述初始參數向量,所述α為第一預設權值,所述η1為所述第一增量,所述X’為更新后的所述待訓練詞語的詞向量,所述X0為所述待訓練詞語的初始詞向量,所述β為第二預設權值,所述η2為所述第二增量。
6.如權利要求1至5任一項所述的文本聚類方法,其特征在于,所述將所述待聚類文本中的所有詞向量進行疊加得到所述待聚類文本的文本向量,包括:
利用TF-IDF算法計算每個文本特征詞的權值;
將所述文本特征詞的詞向量乘以該文本特征詞對應的權值得到所述文本特征詞的特征向量;
將所有的文本特征詞的特征向量進行疊加得到所述訓練文本的文本向量。
7.一種文本聚類裝置,其特征在于,包括:
獲取單元,用于獲取訓練文本,并對所述訓練文本進行分詞預處理得到多個待訓練詞語;
訓練單元,用于利用所述待訓練詞語對預設的轉換模型進行訓練,得到訓練后的轉換模型;
預處理單元,用于獲取待聚類文本,對所述待聚類文本進行分詞預處理得到多個文本特征詞;
疊加單元,用于利用所述訓練后的轉換模型分別將所述文本特征詞轉換為詞向量,并將所述待聚類文本中的所有詞向量進行疊加得到所述待聚類文本的文本向量;
聚類單元,用于對所述文本向量進行聚類得到聚類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科恒運股份有限公司,未經中科恒運股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811508368.3/1.html,轉載請聲明來源鉆瓜專利網。





