[發明專利]聚類方法和系統有效
| 申請號: | 200910211714.6 | 申請日: | 2009-11-10 |
| 公開(公告)號: | CN102053992A | 公開(公告)日: | 2011-05-11 |
| 發明(設計)人: | 張濤;郭家清 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 逯長明;王寶筠 |
| 地址: | 英屬開曼群島大開曼*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 方法 系統 | ||
技術領域
本申請涉及數據處理領域,特別涉及一種聚類方法和系統。
背景技術
在數據處理過程中,將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組數據對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。在對大數據量的可讀取文件進行識別時,往往需要對其進行聚類計算,即是根據不同的閾值將不同的可讀取文件分成不同的類,以便獲取哪些可讀取文件屬于同一個類別,并最終實現相似文檔的聚類。
現有技術中,在對海量可讀取文件進行聚類的過程一般是這樣的:首先將可讀取文件基于不同的方法進行向量化,通過利用不同的向量相似度進行比較的結果作為聚類的依據。所述向量化就是將一個可讀取文件(例如,word文檔)轉化成為由一系列數字組成的向量,其中每個數字代表不同的特征所對應的特征值。不同的可讀取文件所對應的向量是不同的。在根據向量相似度進行聚類時,一般采用逐一比較的方法,例如,當有一百個可讀取文件需要進行聚類時,其中每一個可讀取文件都需要和其他99個可讀取文件計算向量相似度,這樣才可以根據向量相似度的值進行聚類。
從上述過程中可以看出,現有技術值的聚類方法需要計算每個可讀取文件的向量相似度,基于這個向量相似度才可以進行聚類分析,當可讀取文件的數據量很大時,這種重復計算往往會增加計算過程的時間,嚴重降低性能,即是在進行聚類分析之前的計算所占用的系統資源幾乎超過了聚類分析過程。
總之,目前需要本領域技術人員迫切解決的一個技術問題就是:如何能夠創新的提出一種聚類方法,以解決現有技術中每一個可讀取文件都需要和其他文件計算向量相似度才能進行聚類導致的計算時間增加,聚類運算的性能降低的問題。
發明內容
本申請所要解決的技術問題是提供一種聚類方法,用以解決現有技術中每一個可讀取文件都需要和其他文件計算向量相似度才能進行聚類導致的計算時間增加,聚類運算的性能降低的問題。
本申請還提供了一種聚類系統,用以保證上述方法在實際中的實現及應用。
為了解決上述問題,本申請公開了一種聚類方法,包括:
對多個可讀取文件進行向量化,得到多個可讀取文件對應的多個文件向量;
根據所述多個文件向量提取所述多個可讀取文件的總特征向量;
根據所述總特征向量和各個文件向量之間相似度的排序結果,對所述多個可讀取文件進行聚類。
本申請還提供了一種聚類系統,該系統包括:
向量化單元,用于對多個可讀取文件進行向量化,得到多個可讀取文件對應的多個文件向量;
提取單元,根據所述多個文件向量提取所述多個可讀取文件的總特征向量;
聚類單元,根據所述總特征向量和各個文件向量之間相似度的排序結果,對所述多個可讀取文件進行聚類。
本申請還公開了一種對互聯網網頁進行聚類的方法,該方法包括:
從互聯網上獲取多個待聚類網頁;
對所述多個待聚類網頁進行向量化,得到多個待聚類網頁對應的多個網頁向量;
根據所述多個網頁向量提取所述多個待聚類網頁的總網頁特征向量;
根據所述總網頁特征向量和各個網頁向量之間相似度的排序結果,對所述多個待聚類網頁進行聚類。
本申請還公開了一種對互聯網網頁進行聚類的系統,該系統包括:
獲取單元,從互聯網上獲取多個待聚類網頁;
網頁聚類裝置,用于對所述多個待聚類網頁進行向量化,得到多個待聚類網頁對應的多個網頁向量;根據所述多個網頁向量提取所述多個待聚類網頁的總網頁特征向量;根據所述總網頁特征向量和各個網頁向量之間相似度的排序結果,對所述多個待聚類網頁進行聚類。
與現有技術相比,本申請包括以下優點:
在本申請中,首先對當前的多個可讀取文件進行向量化,可以得到多個可讀取文件對應的多個文件向量;根據所述多個文件向量提取所述多個可讀取文件共同的總特征向量,然后再根據所述總特征向量和各個文件向量之間的相似度對所述多個可讀取文件進行聚類。在本申請的實施例中,采用每一個文件向量與總特征向量的相似度作為聚類的依據,無需像現有技術一樣對需要聚類的可讀取文件兩兩之間都計算相似度,從而減少了文件向量之間的相似度的比較次數,進一步可以減少系統資源的負擔,例如CPU和內存的使用量,降低了聚類的運行時間,提高了聚類方法的運算性能。當然,實施本申請的任一產品并不一定需要同時達到以上所述的所有優點。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910211714.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:熱水冷水混合栓
- 下一篇:白介素-13抗體組合物





