[發(fā)明專利]一種互聯(lián)網(wǎng)數(shù)據(jù)聚類方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201510945269.1 | 申請(qǐng)日: | 2015-12-17 |
| 公開(公告)號(hào): | CN106897276A | 公開(公告)日: | 2017-06-27 |
| 發(fā)明(設(shè)計(jì))人: | 趙鶴;李棟一;黃哲學(xué);姜青山;陳會(huì);高琴;朱敏;蔡業(yè)首 | 申請(qǐng)(專利權(quán))人: | 中國科學(xué)院深圳先進(jìn)技術(shù)研究院 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06K9/62 |
| 代理公司: | 深圳市科進(jìn)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙)44316 | 代理人: | 郝明琴 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 互聯(lián)網(wǎng) 數(shù)據(jù) 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及一種互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法及系統(tǒng)。
背景技術(shù)
隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)挖掘領(lǐng)域中面臨的數(shù)據(jù)變得越來越復(fù)雜。尤其是互聯(lián)網(wǎng)文本數(shù)據(jù),除了數(shù)量巨大之外,由矢量空間模型(Vector Space Model)構(gòu)建的文本數(shù)據(jù)還具有超高的維度和稀疏度,現(xiàn)有的數(shù)據(jù)挖掘聚類算法,如k-means、層次聚類、普聚類等應(yīng)用于文本聚類時(shí),普遍存在不足和局限。
針對(duì)高維稀疏數(shù)據(jù)的子空間聚類問題,學(xué)術(shù)界提出了許多相關(guān)的子空間聚類算法(Subspace Clustering),軟子空間聚類算法是其中的一類。依據(jù)加權(quán)的層數(shù)不同,軟子空間聚類算法可以分為單層軟子空間聚類算法和雙層軟子空間聚類算法。EW-k-means是典型的單層軟子空間聚類算法。它假設(shè)特征集在每個(gè)聚類簇上都包含一組權(quán)重,權(quán)重大小由特征對(duì)該聚類簇形成的貢獻(xiàn)大小決定。FG-k-means是由陳小軍等人在2012年提出來的一種雙層軟子空間聚類算法,它引入了特征組的概念,在組與特征上同時(shí)加權(quán),在對(duì)超高維稀疏數(shù)據(jù)進(jìn)行聚類時(shí),效果明顯優(yōu)于單層軟子空間聚類算法。它針對(duì)特征空間包含分組信息的數(shù)據(jù)進(jìn)行聚類,特征空間定義如下:
1)設(shè)訓(xùn)練數(shù)據(jù)集為X={x1,x2,…,xN},其中xi∈Rd(1≤i≤N)表示數(shù)據(jù)集中第i個(gè)樣本;
2)上的特征集為V={v1,v2,…,vd},中的特征包含于組集合G={G1,G2,…,Gk}中且滿足
FG-k-means算法需在以上形式的數(shù)據(jù)集上找出K個(gè)聚類簇,同時(shí)尋找每個(gè)聚類簇在組以及特征上對(duì)應(yīng)子空間。
現(xiàn)有的FG-k-means算法在聚類性能上優(yōu)于其他算法,但是還存在如下問題:FG-k-means算法需要使用特征組的信息,來完成雙層聚類優(yōu)化的目的,但是一般的文本數(shù)據(jù)中不會(huì)提供此類信息,限制了其應(yīng)用的范圍;FG-k-means存在初始中心點(diǎn)選取不同而導(dǎo)致的聚類結(jié)果的不穩(wěn)定性的問題。
發(fā)明內(nèi)容
本發(fā)明提供了一種互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法及系統(tǒng),旨在至少在一定程度上解決現(xiàn)有技術(shù)中的上述技術(shù)問題之一。
本發(fā)明實(shí)現(xiàn)方式如下,一種互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法,包括以下步驟:
一種互聯(lián)網(wǎng)文本數(shù)據(jù)聚類方法,包括以下步驟:
步驟a:利用主題模型對(duì)文本數(shù)據(jù)進(jìn)行訓(xùn)練,得到各個(gè)主題下所有關(guān)鍵詞的概率分布矩陣,并在文本集合中為對(duì)關(guān)鍵詞進(jìn)行分組;
步驟b:根據(jù)關(guān)鍵詞的分組重新組織文本數(shù)據(jù)的特征集,得到包含關(guān)鍵詞分組特征信息的新的文檔數(shù)據(jù);
步驟c:在包含關(guān)鍵詞分組信息的新文檔數(shù)據(jù)上運(yùn)行雙層軟子空間聚類算法,生成聚類中心矩陣和樣本歸屬矩陣;
步驟d:重復(fù)n次步驟a至步驟c,得到多個(gè)聚類結(jié)果;
步驟e:在模型集合上運(yùn)行聚類集成算法,將多個(gè)聚類結(jié)果進(jìn)行集成,得到最終的聚類結(jié)果。
本發(fā)明實(shí)施例采取的技術(shù)方案還包括:在所述步驟a中,在主題模型中設(shè)置主題數(shù)量、聚類集成模型數(shù)據(jù)量和聚類簇的數(shù)量。
本發(fā)明實(shí)施例采取的技術(shù)方案還包括:在所述步驟a中,利用主題模型對(duì)文本數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),在文本數(shù)據(jù)集上運(yùn)行設(shè)置的相應(yīng)主題數(shù)量的主題模型算法。
本發(fā)明實(shí)施例采取的技術(shù)方案還包括:在所述步驟c中,所述雙層軟子空間聚類算法采用FG-k-means算法。
本發(fā)明實(shí)施例采取的技術(shù)方案還包括:在所述步驟e中,所述將多個(gè)聚類結(jié)果進(jìn)行集成具體包括:將同一數(shù)據(jù)集下的多個(gè)聚類結(jié)果進(jìn)行融合,得到反應(yīng)所述數(shù)據(jù)集內(nèi)在結(jié)構(gòu)的劃分。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院深圳先進(jìn)技術(shù)研究院,未經(jīng)中國科學(xué)院深圳先進(jìn)技術(shù)研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510945269.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 基于網(wǎng)絡(luò)電視的互聯(lián)網(wǎng)業(yè)務(wù)處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務(wù)接入網(wǎng)關(guān)的實(shí)現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應(yīng)用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動(dòng)攝像終端進(jìn)行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡(luò)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護(hù)用于互聯(lián)網(wǎng)資源分配的事務(wù)
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務(wù)器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點(diǎn)中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





