[發(fā)明專利]用于提高分類精度的交互式可視數(shù)據(jù)挖掘在審
申請?zhí)枺?/td> | 201210366772.8 | 申請日: | 2012-09-28 |
公開(公告)號: | CN103699541A | 公開(公告)日: | 2014-04-02 |
發(fā)明(設計)人: | 陳弢;陳繼東 | 申請(專利權)人: | 伊姆西公司 |
主分類號: | G06F17/30 | 分類號: | G06F17/30 |
代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 王茂華 |
地址: | 美國馬*** | 國省代碼: | 美國;US |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 用于 提高 分類 精度 交互式 可視 數(shù)據(jù) 挖掘 | ||
技術領域
本發(fā)明涉及數(shù)據(jù)分類,并且更具體而言,涉及用于提高數(shù)據(jù)分類精度的可視數(shù)據(jù)挖掘技術。
背景技術
在從數(shù)據(jù)集合特別是本質(zhì)上高維并且稀疏的數(shù)據(jù)集合中提取信息和知識(即,數(shù)據(jù)挖掘)的過程中,數(shù)據(jù)分類是重要的。這種高維數(shù)據(jù)集合目前被稱為“大數(shù)據(jù)”。如已知的,被描述為大數(shù)據(jù)的數(shù)據(jù)集合的尺寸太大,以至于完全超出常用軟件工具管理/處理該數(shù)據(jù)的能力,至少無法在適當?shù)臅r間內(nèi)完成。例如,與大數(shù)據(jù)相關聯(lián)的高維度通常導致用于分類新數(shù)據(jù)記錄的現(xiàn)有數(shù)據(jù)分類器的不良性能。
通常,數(shù)據(jù)分類器通過如下步驟被學習:數(shù)據(jù)預處理;模型訓練;以及模型評估。為了更好的精度,在模型評估步驟之后,可以回顧數(shù)據(jù)預處理和模型訓練步驟,調(diào)諧參數(shù),并且隨后可以重新運行整個分類器學習過程。但是,該過程不能很好地適用于大數(shù)據(jù)分析。該過程本身的一次重復可能是成本不允許的,更不用說多次重復。這樣,需要一種改善用于分類高維數(shù)據(jù)集合(包括但不限于被描述為大數(shù)據(jù)的數(shù)據(jù)集合)的數(shù)據(jù)分類器的性能的技術。
發(fā)明內(nèi)容
本發(fā)明的實施方式提供了用于提高數(shù)據(jù)分類精度的可視數(shù)據(jù)挖掘技術。
在一個實施方式中,一種方法包括以下步驟。從一個高維數(shù)據(jù)集合生成至少兩個決策樹數(shù)據(jù)結構。生成包括至少兩個決策樹數(shù)據(jù)結構的復合數(shù)據(jù)結構?;谥辽賰蓚€決策樹數(shù)據(jù)結構之間計算的相關性來生成復合數(shù)據(jù)結構。將復合數(shù)據(jù)結構可視化在顯示器上。經(jīng)由與顯示器上的復合數(shù)據(jù)結構的可視化交互,允許對復合數(shù)據(jù)結構的修改。方法還可以包括對于復合數(shù)據(jù)結構中的每個決策樹數(shù)據(jù)結構計算分類精度(例如強度)。
在一個示例中,復合數(shù)據(jù)結構是隨機森林數(shù)據(jù)結構。經(jīng)由與顯示器上的復合數(shù)據(jù)結構的可視化的交互來允許復合數(shù)據(jù)結構的修改可以進一步包括允許以下至少一個:至少一個決策樹數(shù)據(jù)結構從復合數(shù)據(jù)結構的移除;以及至少一個決策樹數(shù)據(jù)結構到復合數(shù)據(jù)結構的添加。方法可以進一步包括使用復合數(shù)據(jù)結構分類新數(shù)據(jù)記錄。
在另一個實施方式中,提供了一種包括處理器可讀存儲介質(zhì)的計算機程序產(chǎn)品,其中將一個或多個軟件程序的可執(zhí)行代碼編碼在處理器可讀存儲介質(zhì)中。當一個或多個軟件程序被處理設備的處理器執(zhí)行時實現(xiàn)上述方法的步驟。
在另一個實施方式中,一種裝置包括存儲器以及可操作地耦合到存儲器并且被配置為執(zhí)行上述方法的步驟的處理器。
本文所述的示例性實施方式有利地提供復合數(shù)據(jù)結構如用于高維數(shù)據(jù)集合(如可以被描述為大數(shù)據(jù)的數(shù)據(jù)集合)的隨機森林集成的可視化,從而用戶可以與隨機森林可視化交互以便有效地改善分類精度。
通過附圖和以下詳細描述,本發(fā)明的這些以及其他特征和優(yōu)點將變得更加顯而易見。
附圖說明
圖1示出了根據(jù)本發(fā)明的一個實施方式基于云的數(shù)據(jù)存儲系統(tǒng)環(huán)境。
圖2A示出了根據(jù)本發(fā)明的一個實施方式云架構和交互式可視數(shù)據(jù)挖掘模塊。
圖2B示出了圖2A的云架構的更詳細的視圖。
圖3示出了根據(jù)本發(fā)明的一個實施方式的處理平臺,其中在該處理平臺上實現(xiàn)圖2A的云架構和交互式可視數(shù)據(jù)挖掘模塊。
圖4示出了根據(jù)本發(fā)明的一個實施方式用于從訓練數(shù)據(jù)集合生成決策樹模型的過程。
圖5示出了根據(jù)本發(fā)明的一個實施方式的決策樹和隨機森林的可視化。
圖6示出了根據(jù)本發(fā)明的一個實施方式用于生成并且與隨機森林可視化交互的方法。
具體實施方式
將參考示例性計算系統(tǒng)和數(shù)據(jù)存儲系統(tǒng)以及相關的服務器、計算機、存儲單元和設備以及其他處理設備來描述本發(fā)明的實施方式。但是要認識到,本發(fā)明的實施方式不限于與所示具體示范性系統(tǒng)和設備配置一起使用。此外,如這里所使用的短語“計算系統(tǒng)”和“數(shù)據(jù)存儲系統(tǒng)”適用于被廣義地解釋為包括例如專用或公共云計算或存儲系統(tǒng)以及包括分布式虛擬架構的其他類型的系統(tǒng)。但是,給定的實施方式可以更普遍地包括一個或多個處理設備的任意配置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于伊姆西公司,未經(jīng)伊姆西公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210366772.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。