[發明專利]一種文本聚類方法、裝置、設備及可讀存儲介質在審
| 申請號: | 201810763151.0 | 申請日: | 2018-07-12 |
| 公開(公告)號: | CN108846142A | 公開(公告)日: | 2018-11-20 |
| 發明(設計)人: | 曾廣移;李德華;鞏宇;盧勇;丁釗;楊小龍;梁莉雪;黃小鳳;王曉翼;楊宗強 | 申請(專利權)人: | 南方電網調峰調頻發電有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06N3/02 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 510635 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本聚類 神經網絡訓練 目標源 可讀存儲介質 神經網絡算法 緩存 分布式集群 目標數據 文本 服務器 讀取 技術效果 聚類分析 聚類過程 聚類結果 模型產生 文本特征 中間結果 最大概率 數據量 聚類 預設 存儲 應用 | ||
本發明公開了一種文本聚類方法,應用于分布式集群中的服務器,包括:獲取待聚類的目標源文本;采用最大概率法提取目標源文本中的文本特征,獲得目標數據;從自身緩存中讀取預設的神經網絡訓練模型;根據神經網絡訓練模型和神經網絡算法,對目標數據進行聚類分析,并生成與目標源文本對應的文件族。該方法應用于分布式集群,且在聚類過程中,神經網絡訓練模型產生的中間結果存儲于服務器的緩存,因而提高了文本聚類的數據量和效率;同時,神經網絡算法提高了聚類結果的準確性。相應地,本發明公開的一種文本聚類裝置、設備及可讀存儲介質,也同樣具有上述技術效果。
技術領域
本發明涉及聚類技術領域,更具體地說,涉及一種文本聚類方法、裝置、設備及可讀存儲介質。
背景技術
隨著計算機技術和聚類技術的不斷融合發展,文本聚類成為對文本信息進行有效地組織、摘要和導航的重要手段。
目前,現有的文本聚類一般基于單機系統實現,由于機器有限,故其可涵蓋的文本量較少;且由于其在聚類過程中,將聚類的中間結果存儲于后端硬盤中,導致在迭代計算時,每次都需要從硬盤中讀取數據,如此便降低了計算速率,進而導致文本聚類的效率有所降低;同時,由于其采用的聚類分析的算法較為復雜,在計算速率緩慢的情況下,可能無法確保聚類結果的準確性。
因此,如何提高文本聚類的效率和準確性,是本領域技術人員需要解決的問題。
發明內容
本發明的目的在于提供一種文本聚類方法、裝置、設備及可讀存儲介質,以提高文本聚類的效率和準確性。
為實現上述目的,本發明實施例提供了如下技術方案:
一種文本聚類方法,應用于分布式集群中的服務器,包括:
獲取待聚類的目標源文本;
采用最大概率法提取所述目標源文本中的文本特征,獲得目標數據;
從自身緩存中讀取預設的神經網絡訓練模型;
根據所述神經網絡訓練模型和神經網絡算法,對所述目標數據進行聚類分析,并生成與所述目標源文本對應的文件族。
其中,所述采用最大概率法提取所述目標源文本中的文本特征,獲得目標數據,包括:
對所述目標源文件進行預處理,并從預處理后的目標源文本中提取文本分詞,所述文本分詞包括:數字、日期、名字和詞性;
從所述文本分詞中提取所述文本特征,并通過所述最大概率法確定出現概率最大的文本特征,所述文本特征包括:詞權重、詞頻和逆文檔頻率。
其中,所述神經網絡訓練模型的生成包括:
獲取目標訓練文本,并對所述目標訓練文本進行歸一化處理;
基于隨機數,以及預設的連接值和閾值,對歸一化處理后的目標訓練文本進行稀疏邏輯回歸,獲得目標訓練集合;
基于所述隨機數,所述連接值和所述閾值迭代計算所述目標訓練集合,生成所述神經網絡訓練模型。
其中,所述生成與所述目標源文本對應的文件族,包括:
通過向量空間模型和向量間空間夾角的余弦值生成所述文件族。
其中,所述生成與所述目標源文本對應的文件族之后,還包括:
將所述文件族進行可視化展示。
一種文本聚類裝置,應用于分布式集群中的服務器,包括:
獲取模塊,用于獲取待聚類的目標源文本;
提取模塊,用于采用最大概率法提取所述目標源文本中的文本特征,獲得目標數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南方電網調峰調頻發電有限公司,未經南方電網調峰調頻發電有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810763151.0/2.html,轉載請聲明來源鉆瓜專利網。





