[發明專利]一種文本聚類方法、文本聚類裝置及終端設備在審
| 申請號: | 201811508368.3 | 申請日: | 2018-12-11 |
| 公開(公告)號: | CN109739978A | 公開(公告)日: | 2019-05-10 |
| 發明(設計)人: | 劉志勇;任曉德;吳又奎 | 申請(專利權)人: | 中科恒運股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 石家莊國為知識產權事務所 13120 | 代理人: | 秦敏華 |
| 地址: | 050090 河北省石家莊市新石*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本聚類 聚類 轉換模型 文本 分詞預處理 文本特征 文本向量 訓練文本 終端設備 詞向量 詞語 聚類結果 詞轉換 預設 疊加 申請 學習 | ||
本申請適用于深度學習技術領域,提供了一種文本聚類方法、文本聚類裝置及終端設備,包括:獲取訓練文本,并對所述訓練文本進行分詞預處理得到多個待訓練詞語;利用所述待訓練詞語對預設的轉換模型進行訓練,得到訓練后的轉換模型;獲取待聚類文本,對所述待聚類文本進行分詞預處理得到多個文本特征詞;利用所述訓練后的轉換模型分別將所述文本特征詞轉換為詞向量,并將所述待聚類文本中的所有詞向量進行疊加得到所述待聚類文本的文本向量;對所述文本向量進行聚類得到聚類結果。通過上述方法,能夠有效提高文本聚類結果的準確性。
技術領域
本申請涉及深度學習技術領域,尤其涉及一種文本聚類方法、文本聚類裝置及終端設備。
背景技術
文本聚類是在傳統的聚類分析的基礎上發展而來的,其依據是同類的文檔相似度較大,不同類的文檔相似度較小。作為一種無監督的機器學習方法,聚類不需要訓練過程,也不需要預先對文檔手工標注類別,因此具有一定的靈活性和較高的自動化處理能力,已經成為對文本信息進行分類和識別的重要手段,為越來越多的研究人員所關注。但是現有的文本聚類方法仍然得不到較高的準確率。
發明內容
有鑒于此,本申請實施例提供了一種文本聚類方法、文本聚類裝置及終端設備,以解決現有的文本聚類方法的結果準確性較低的問題。
本申請實施例的第一方面提供了一種文本聚類方法,包括:
獲取訓練文本,并對所述訓練文本進行分詞預處理得到多個待訓練詞語;
利用所述待訓練詞語對預設的轉換模型進行訓練,得到訓練后的轉換模型;
獲取待聚類文本,對所述待聚類文本進行分詞預處理得到多個文本特征詞;
利用所述訓練后的轉換模型分別將所述文本特征詞轉換為詞向量,并將所述待聚類文本中的所有詞向量進行疊加得到所述待聚類文本的文本向量;
對所述文本向量進行聚類得到聚類結果。
本申請實施例的第二方面提供了一種文本聚類裝置,包括:
獲取單元,用于獲取訓練文本,并對所述訓練文本進行分詞預處理得到多個待訓練詞語;
訓練單元,用于利用所述待訓練詞語對預設的轉換模型進行訓練,得到訓練后的轉換模型;
預處理單元,用于獲取待聚類文本,對所述待聚類文本進行分詞預處理得到多個文本特征詞;
疊加單元,用于利用所述訓練后的轉換模型分別將所述文本特征詞轉換為詞向量,并將所述待聚類文本中的所有詞向量進行疊加得到所述待聚類文本的文本向量;
聚類單元,用于對所述文本向量進行聚類得到聚類結果。
本申請實施例的第三方面提供了一種終端設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現本申請實施例第一方面提供的所述方法的步驟。
本申請實施例的第四方面提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被一個或多個處理器執行時實現本申請實施例第一方面提供的所述方法的步驟。
本申請實施例與現有技術相比存在的有益效果是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科恒運股份有限公司,未經中科恒運股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811508368.3/2.html,轉載請聲明來源鉆瓜專利網。





