[發明專利]一種基于R語言的信息聚類方法在審

申請號：	201910587823.1	申請日：	2019-07-02
公開（公告）號：	CN110377736A	公開（公告）日：	2019-10-25
發明（設計）人：	劉家祥	申請（專利權）人：	廈門耐特源碼信息科技有限公司
主分類號：	G06F16/35	分類號：	G06F16/35;G06F17/27;G06Q50/26
代理公司：	北京勁創知識產權代理事務所(普通合伙) 11589	代理人：	王志敏
地址：	361000 福建省***	國省代碼：	福建;35
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	輸入數據樣本語言服務器信息聚類特征項類型庫聚類集合預處理對比信息獲得信息建立信息聚類分析聚類結果信息類型信息數據內存語言分析統計生產
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

一種基于R語言的信息聚類方法，所述方法包括以下步驟：S1、對信息進行統計并建立信息類型庫；S2、獲取待聚類的信息數據，以形成輸入數據樣本；S3、對輸入數據樣本進行預處理，形成輸入數據樣本的特征項集合；S4、搭建R語言服務器；S5、將信息類型庫中的數據導入到所述R語言服務器內存；S6、將步驟3中生產的輸入數據樣本的特征項集合輸入到R語言服務器中進行聚類分析；S7、通過R語言服務器對輸入數據樣本的特征項分析并對比信息類型庫，獲得信息聚類結果。本發明對信息聚類效率高且聚類準確精度好。

技術領域

本發明涉及信息聚類技術領域，尤其涉及一種基于R語言的信息聚類方法。

背景技術

R語言是一套完整的數據處理、計算和制圖軟件系統。其功能包括：數據存儲和處理系統；數組運算工具(其向量、矩陣運算方面功能尤其強大)；完整連貫的統計分析工具；優秀的統計制圖功能；簡便而強大的編程語言：可操縱數據的輸入和輸出，可實現分支、循環，用戶可自定義功能。

在工作中，對不同信息需要進行聚類處理，由于其信息內容的龐大性，相同或相似信息在不同地區的展現形式存在差異，例如名稱或詞語的描述彼此不同，從而影響信息信息工作準確快速進行，需要通過對信息信息進行聚類，以便工作正常有序進行；目前的信息聚類方法效率差，且聚類辨析精度不高，容易因計算錯誤影響工作的正常進行。

為解決上述問題，本申請中提出一種基于R語言的信息聚類方法。

發明內容

(一)發明目的

為解決背景技術中存在的技術問題，本發明提出一種基于R語言的信息聚類方法，對信息聚類效率高且聚類準確精度好。

(二)技術方案

為解決上述問題，本發明提供了一種基于R語言的信息聚類方法，所述方法包括以下步驟：

S1、對信息進行統計并建立信息類型庫；

S2、獲取待聚類的信息數據，以形成輸入數據樣本；

S3、對輸入數據樣本進行預處理，形成輸入數據樣本的特征項集合；

S4、搭建R語言服務器；

S5、將信息類型庫中的數據導入到所述R語言服務器內存；

S6、將步驟3中生產的輸入數據樣本的特征項集合輸入到R語言服務器中進行聚類分析；