[發明專利]一種基于R語言的信息聚類方法在審

申請號：	201910587823.1	申請日：	2019-07-02
公開（公告）號：	CN110377736A	公開（公告）日：	2019-10-25
發明（設計）人：	劉家祥	申請（專利權）人：	廈門耐特源碼信息科技有限公司
主分類號：	G06F16/35	分類號：	G06F16/35;G06F17/27;G06Q50/26
代理公司：	北京勁創知識產權代理事務所(普通合伙) 11589	代理人：	王志敏
地址：	361000 福建省***	國省代碼：	福建;35
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	輸入數據樣本語言服務器信息聚類特征項類型庫聚類集合預處理對比信息獲得信息建立信息聚類分析聚類結果信息類型信息數據內存語言分析統計生產
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于R語言的信息聚類方法，其特征在于，所述方法包括以下步驟：

S1、對信息進行統計并建立信息類型庫；

S2、獲取待聚類的信息數據，以形成輸入數據樣本；

S3、對輸入數據樣本進行預處理，形成輸入數據樣本的特征項集合；

S4、搭建R語言服務器；

S5、將信息類型庫中的數據導入到所述R語言服務器內存；

S6、將步驟3中生產的輸入數據樣本的特征項集合輸入到R語言服務器中進行聚類分析；

S7、通過R語言服務器對輸入數據樣本的特征項分析并對比信息類型庫，獲得信息聚類結果。

2.根據權利要求1所述的一種基于R語言的信息聚類方法，其特征在于，對所述步驟1中建立的信息類型庫進行管理。

3.根據權利要求2所述的一種基于R語言的信息聚類方法，其特征在于，所述對信息類型庫進行管理包括實時添加新的信息類型和刪除過時棄用的信息類型。

4.根據權利要求1所述的一種基于R語言的信息聚類方法，其特征在于，所述步驟2中獲取待聚類的信息數據為一段歷史時間內的信息數據。

5.根據權利要求1所述的一種基于R語言的信息聚類方法，其特征在于，所述步驟3中對輸入數據樣本進行預處理為分詞處理，所述分詞處理包括當檢測到樣本信息中出現符號、英文單詞和/或數字時，判斷該符號、英文單詞和/或數字與所述樣本信息的相關程度；

當判斷出所述符號、英文單詞和/或數字與所述樣本信息的相關程度低于指定值時，刪除所述符號、英文單詞和/或數字。

6.根據權利要求1所述的一種基于R語言的信息聚類方法，其特征在于，所述步驟3中對輸入數據樣本進行預處理，形成輸入數據樣本的特征項集合還包括有還包括檢測分詞處理后的字詞是否與預設的停用表中的字詞相同；當檢測到分詞處理后的字詞與預設的停用表中的字詞相同時，刪除分詞處理后的相同的字詞。

7.根據權利要求1所述的一種基于R語言的信息聚類方法，其特征在于，所述步驟5將信息類型庫中的數據導入到所述R語言服務器內存具體為編寫用于讀取數據的R語言腳本，通過調用shell將指定的信息類型庫數據加載到所述R語言服務器內存。

8.根據權利要求1所述的一種基于R語言的信息聚類方法，其特征在于，所述步驟5將信息類型庫中的數據導入到所述R語言服務器內存還包括數據更新步驟，具體為：對實時性要求不高的數據，設置定時任務，在指定的時間間隔觸發數據更新操作，將信息類型庫中更新的數據加載到所述R語言服務器內存；對實時性要求高的數據，編寫守護進程，實時監控信息類型庫中指定表的數據更新情況，并將更新的數據同步加載到所述R語言服務器內存。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于廈門耐特源碼信息科技有限公司，未經廈門耐特源碼信息科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910587823.1/1.html，轉載請聲明來源鉆瓜專利網。