[發(fā)明專利]訓(xùn)練和使用具有關(guān)聯(lián)規(guī)則模型的分類模型的方法有效
| 申請(qǐng)?zhí)枺?/td> | 201080058074.0 | 申請(qǐng)日: | 2010-12-07 |
| 公開(公告)號(hào): | CN102667775A | 公開(公告)日: | 2012-09-12 |
| 發(fā)明(設(shè)計(jì))人: | T·博林格 | 申請(qǐng)(專利權(quán))人: | 國際商業(yè)機(jī)器公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京市中咨律師事務(wù)所 11247 | 代理人: | 于靜;張亞非 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 訓(xùn)練 使用 具有 關(guān)聯(lián) 規(guī)則 模型 分類 方法 | ||
背景技術(shù)
數(shù)據(jù)挖掘一般指用于從輸入數(shù)據(jù)提取信息的數(shù)據(jù)驅(qū)動(dòng)型方法。用于從輸入數(shù)據(jù)提取信息的其它方法通常為假設(shè)驅(qū)動(dòng)型,其中根據(jù)輸入數(shù)據(jù)來證明一組假設(shè)為真實(shí)的或虛假的。
輸入數(shù)據(jù)的量可為巨大的,且因此數(shù)據(jù)挖掘技術(shù)通常需要考慮如何有效地處理大量數(shù)據(jù)??紤]產(chǎn)品制造作為一個(gè)實(shí)例。其中,輸入數(shù)據(jù)可包括與組件的產(chǎn)地及特征、在制造廠中對(duì)組件的處理、組件如何被組裝在一起有關(guān)的各種數(shù)據(jù)片段。在制造上下文中的數(shù)據(jù)挖掘的目的可為解決與質(zhì)量分析和質(zhì)量保證有關(guān)的問題。數(shù)據(jù)挖掘可用于(例如)根本原因分析、用于制造廠內(nèi)的預(yù)警系統(tǒng),及用于減少保修索賠。作為第二實(shí)例,考慮各種信息技術(shù)系統(tǒng)。其中,數(shù)據(jù)挖掘可進(jìn)一步用于入侵檢測(cè)、系統(tǒng)監(jiān)視及問題分析。數(shù)據(jù)挖掘亦具有各種其它用途,例如,在零售及服務(wù)中(其中可分析典型客戶行為),及在醫(yī)學(xué)及生命科學(xué)中用于尋找臨床研究中的因果關(guān)系。
模式檢測(cè)是一門數(shù)據(jù)挖掘?qū)W科(discipline)。輸入數(shù)據(jù)可包括若干事務(wù)集合,其中每個(gè)事務(wù)包含一個(gè)項(xiàng)目集合??筛郊拥嘏判蜻@些事務(wù)。排序可基于時(shí)間,但備選地,可定義任何排序。例如,可賦予每個(gè)事務(wù)一個(gè)序號(hào)。對(duì)于事務(wù)數(shù)據(jù)而言,關(guān)聯(lián)規(guī)則為描述項(xiàng)目如何在事務(wù)內(nèi)出現(xiàn)的模式。
考慮項(xiàng)目集合I={I1、I2、……、Im}。假設(shè)D為事務(wù)集合,其中每個(gè)事務(wù)T為屬于I的項(xiàng)目集合。如果則事務(wù)T因此包含I中的項(xiàng)目集合A。關(guān)聯(lián)規(guī)則為形式A=>B的蘊(yùn)涵式(implication),其中且A∩B=φ;A稱為規(guī)則主體(rule?body)且B為規(guī)則標(biāo)題(rule?head)。如果D中包含A的事務(wù)中的c%亦包含B,則關(guān)聯(lián)規(guī)則A=>B在事務(wù)集合D中以信任度c有效。換言之,信任度c為條件概率p(B|A),其中p(S)是發(fā)現(xiàn)S為D中的事務(wù)T的子集的概率。當(dāng)D中s%的事務(wù)包含A∪B時(shí),規(guī)則A=>B在事務(wù)集合D中具有支持度s。換言之,支持度s是在事務(wù)中出現(xiàn)集合A及集合B中的項(xiàng)目的并集的概率。規(guī)則的提升(lift)是規(guī)則信任度與預(yù)期信任度的商。規(guī)則的預(yù)期信任度是在以下假定下的信任度:在事務(wù)中規(guī)則標(biāo)題項(xiàng)目與規(guī)則主體項(xiàng)目的出現(xiàn)在統(tǒng)計(jì)上彼此獨(dú)立。其等于規(guī)則標(biāo)題的支持度且表達(dá)了規(guī)則主體及規(guī)則標(biāo)題中的項(xiàng)目之間的“吸引”程度。大于1的提升值意味項(xiàng)目彼此吸引,而小于1的值為排斥的指示。
關(guān)聯(lián)規(guī)則挖掘的目標(biāo)是準(zhǔn)確地找到滿足用戶定義的準(zhǔn)則的所有規(guī)則。用戶可定義規(guī)則的最小支持度或信任度,因?yàn)閷?duì)于一些應(yīng)用而言非常罕見或松散地相關(guān)的事件可能不重要。用戶亦可僅對(duì)特定項(xiàng)目感興趣,且僅想要搜索包含這些感興趣項(xiàng)目中的至少一個(gè)項(xiàng)目的模式。
已知的數(shù)據(jù)挖掘算法在某些情形中具有缺陷。取決于輸入數(shù)據(jù)的量(在一些情況下多達(dá)數(shù)億個(gè)直至數(shù)十億個(gè)記錄)及候選模式空間的大小,寬度優(yōu)先搜索可為緩慢的,因?yàn)樾枰獙?duì)原始數(shù)據(jù)源進(jìn)行許多次掃描,且因?yàn)樾枰獙?duì)照所有事務(wù)來評(píng)估每個(gè)候選模式。另一方面,深度優(yōu)先搜索可由于大量輸入數(shù)據(jù)而用完內(nèi)存或(由于對(duì)照輸入數(shù)據(jù)的大量評(píng)估)其可在輸入數(shù)據(jù)被交換至磁盤時(shí)為緩慢的。另外,這些數(shù)據(jù)挖掘算法基于項(xiàng)目層級(jí)。由于很少可獲得此類項(xiàng)目層級(jí),所以必須首先確定項(xiàng)目層級(jí)。此類確定可為有缺陷的且可因此使算法的結(jié)果不被信任。
尋找用于預(yù)測(cè)分類“分類”值的分類模型為另一重要的數(shù)據(jù)挖掘問題。其實(shí)例包括預(yù)測(cè)客戶是否將轉(zhuǎn)向競(jìng)爭(zhēng)者(例如,“流失預(yù)測(cè)”)、客戶是否將對(duì)營銷活動(dòng)做出響應(yīng)、產(chǎn)品(如汽車)是否將被準(zhǔn)時(shí)、太遲或太早交付,或產(chǎn)品(如計(jì)算機(jī)芯片)是否有故障。為構(gòu)建此類模型,將以歷史數(shù)據(jù)開始,亦即,具有已知分類值的案例(例如,最近12個(gè)月的流失及非流失案例、測(cè)試營銷活動(dòng)的結(jié)果或具有交付時(shí)間值的生產(chǎn)數(shù)據(jù))。可將這些歷史數(shù)據(jù)收集于數(shù)據(jù)表中,所述數(shù)據(jù)表對(duì)于每個(gè)實(shí)體(如客戶或產(chǎn)品)包含一個(gè)行,且具有用于分類值的一個(gè)列及用于實(shí)體的其它特性的若干列。
分類算法的任務(wù)是從這些其它列(例如,“自變量”)的值導(dǎo)出分類值(例如,“因變量”的值),這經(jīng)常稱為分類模型的訓(xùn)練。為了進(jìn)行流失預(yù)測(cè)及為了預(yù)測(cè)客戶是否對(duì)營銷活動(dòng)做出響應(yīng),除關(guān)于客戶的人口數(shù)據(jù)(如年齡、婚姻狀況或居住地)之外,歷史數(shù)據(jù)還可包括關(guān)于他或她作為顧客的行為的信息。為預(yù)測(cè)產(chǎn)品交付延遲,可包括關(guān)于產(chǎn)品的信息,如特定特征及關(guān)于生產(chǎn)過程的細(xì)節(jié)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機(jī)器公司,未經(jīng)國際商業(yè)機(jī)器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201080058074.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 關(guān)聯(lián)裝置
- 數(shù)據(jù)關(guān)聯(lián)裝置和數(shù)據(jù)關(guān)聯(lián)方法
- 安全關(guān)聯(lián)
- 設(shè)備關(guān)聯(lián)
- 終端關(guān)聯(lián)裝置和終端關(guān)聯(lián)方法
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)分析方法和關(guān)聯(lián)分析系統(tǒng)
- 報(bào)文關(guān)聯(lián)方法、報(bào)文關(guān)聯(lián)裝置及報(bào)文關(guān)聯(lián)系統(tǒng)





