[發明專利]對文檔進行聚類的方法和裝置有效
| 申請號: | 201310157114.2 | 申請日: | 2013-04-28 |
| 公開(公告)號: | CN103455534B | 公開(公告)日: | 2017-02-08 |
| 發明(設計)人: | 黃平春 | 申請(專利權)人: | 北界創想(北京)軟件有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司11319 | 代理人: | 蘇培華 |
| 地址: | 100020 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 進行 方法 裝置 | ||
技術領域
本發明涉及互聯網領域,特別涉及一種對文檔進行聚類的方法和裝置。
背景技術
在互連網信息急劇增加的環境下,如何有效準確的得到所需的信息成為亟待解決的技術問題。其中,如何對網絡文檔進行聚類以得到多種文檔類別尤為關鍵。
現有技術中對文檔進行聚類的方法智能性較低,需要依靠人工的參與,即預先人工輸入聚類數值,確定將文檔聚為幾類后,才能開始聚類,例如,人工輸入將文檔聚為3類或4類。當人工輸入的聚類數值不準時,聚類效果會受到很大影響,進一步地,當文檔數量為海量時,人工無法給出一個聚類數值,聚類操作難以進行。
發明內容
本發明實施例提供一種對文檔進行聚類的方法和裝置,避免了人工參與,提高了對文檔進行聚類的準確性和智能性。
本發明為了實現上述目的提供一種對文檔進行聚類的方法,包括:步驟A、對文檔分別進行矢量化,其中,每篇文檔在矢量化后對應多維空間中的一個文檔坐標;步驟B、將多個文檔坐標聚為兩個簇并分別獲取每個簇在多維空間中的幾何中心;步驟C、分別計算每個簇的平均半徑,并在平均半徑滿足預設條件時,將兩個簇中的文檔坐標對應的文檔聚為一個不可分裂的類,在平均半徑不滿足預設條件時,將兩個簇分別對應為兩個可分裂的類,其中,平均半徑為簇中所有文檔坐標到幾何中心的距離的平均值;步驟D、在每個可分裂的類中,再次執行步驟B和步驟C;以及步驟E、當每篇文檔都屬于不可分裂的類時,終止聚類。
在一個實施例中,步驟B包括:步驟F、根據文檔坐標的距離將多個文檔坐標聚為兩個簇中。
在一個實施例中,步驟F包括:步驟G、等概率選取兩個文檔坐標;步驟H、分別計算每個未選取的文檔坐標與選取的兩個文檔坐標的距離,并將未選取的文檔坐標與距其距離短的選取的文檔坐標聚為同一個簇。
在另一個實施例中,步驟F包括:步驟G、隨機選取一個文檔坐標;步驟H、將在選取的文檔坐標預設距離內的多個文檔坐標聚為一個簇,將不在選取的文檔坐標預設距離內的多個文檔坐標聚為一個簇。
在一個實施例中,在步驟B與步驟C之間,還包括:步驟I、將每個文檔坐標與兩個幾何中心進行比較,并將其與兩個幾何中心中距其距離短的幾何中心聚為一個新一代的簇;步驟J、獲取每個新一代的簇在多維空間中的幾何中心,當相鄰兩代的簇的幾何中心的距離差值不滿足預設的閾值時,重復步驟I,當相鄰兩代的簇的幾何中心的距離差值滿足預設的閾值時,執行步驟C。
在一個實施例中,預設條件包括:兩個簇的平均半徑之和不小于兩個幾何中心之間的距離。
本發明為了實現上述目的還提供一種對文檔進行聚類的裝置,包括:獲取模塊,用于對所述文檔分別進行矢量化,其中,每篇文檔在矢量化后對應多維空間中的一個文檔坐標;第一分類模塊,用于將多個所述文檔坐標聚為兩個簇并分別獲取每個簇在所述多維空間中的幾何中心;處理模塊,用于分別計算所述每個簇的平均半徑,并在所述平均半徑滿足預設條件時,將所述兩個簇中的所述文檔坐標對應的文檔聚為一個不可分裂的類,在所述平均半徑不滿足預設條件時,將所述兩個簇分別對應為兩個可分裂的類,其中,所述平均半徑為所述簇中所有文檔坐標到所述幾何中心的距離的平均值;第一調用模塊,用于在所述每個可分裂的類中,再次調用所述第一分類模塊和所述處理模塊對所述可分裂的類中的文檔坐標進行操作;以及終止模塊,用于當每篇文檔都屬于不可分裂的類時,終止聚類。
在一個實施例中,第一分類模塊根據文檔坐標的距離將多個文檔坐標聚為兩個簇中。
在一個實施例中,第一分類模塊包括:選取子模塊,用于等概率選取兩個文檔坐標;分類子模塊,用于分別計算每個未選取的文檔坐標與選取的兩個文檔坐標的距離,并將未選取的文檔坐標與距其距離短的選取的文檔坐標聚為同一個簇。
在另一個實施例中,第一分類模塊包括:選取子模塊,用于隨機選取一個文檔坐標;分類子模塊,用于將在選取的文檔坐標預設距離內的多個文檔坐標聚為一個簇,將不在選取的文檔坐標預設距離內的多個文檔坐標聚為一個簇。
在一個實施例中,上述裝置還包括:第二分類模塊,用于將每個文檔坐標與兩個幾何中心進行比較,并將其與兩個幾何中心中距其距離短的幾何中心聚為一個新一代的簇;第二調用模塊,用于獲取每個新一代的簇在多維空間中的幾何中心,當相鄰兩代的簇的幾何中心的距離差值不滿足預設的閾值時,調用第二分類模塊,當相鄰兩代的簇的幾何中心的距離差值滿足預設的閾值時,調用處理模塊。
在一個實施例中,預設條件包括:兩個簇的平均半徑之和不小于兩個幾何中心之間的距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北界創想(北京)軟件有限公司,未經北界創想(北京)軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310157114.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于網頁加載的方法及裝置
- 下一篇:一種數據抽取和下發的方法及其裝置





