[發(fā)明專利]有趣項(xiàng)集獲取方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201410078745.X | 申請(qǐng)日: | 2014-03-05 |
| 公開(kāi)(公告)號(hào): | CN104899408A | 公開(kāi)(公告)日: | 2015-09-09 |
| 發(fā)明(設(shè)計(jì))人: | 祝世偉;李雪峰;王天梅;張巍;涂艷 | 申請(qǐng)(專利權(quán))人: | 孫寶文;祝世偉 |
| 主分類號(hào): | G06F19/00 | 分類號(hào): | G06F19/00 |
| 代理公司: | 北京三高永信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11138 | 代理人: | 江崇玉 |
| 地址: | 100081 北京市海淀區(qū)學(xué)院*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 有趣 獲取 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別涉及一種有趣項(xiàng)集獲取方法和裝置。
背景技術(shù)
關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘技術(shù)中研究的熱點(diǎn)之一。通過(guò)對(duì)大型事務(wù)集進(jìn)行關(guān)聯(lián)規(guī)則挖掘,可以挖掘出隱藏在該大型事務(wù)集中不同項(xiàng)之間的關(guān)聯(lián)規(guī)則,這些關(guān)聯(lián)規(guī)則可以應(yīng)用于電子商務(wù)推薦、購(gòu)物籃分析等多種領(lǐng)域。
關(guān)聯(lián)規(guī)則挖掘算法中一般使用“支持度-置信度”框架,挖掘出支持度不小于支持度閾值的候選項(xiàng)集,再基于這些候選項(xiàng)集,挖掘出置信度不小于置信度閾值的關(guān)聯(lián)規(guī)則。但是,這種方法容易產(chǎn)生沒(méi)有實(shí)際應(yīng)用價(jià)值的“干擾性”的關(guān)聯(lián)規(guī)則,具有一定的局限性。例如,對(duì)于“茶”和“咖啡”兩個(gè)項(xiàng)來(lái)說(shuō),通過(guò)對(duì)事務(wù)集進(jìn)行挖掘后,得到關(guān)聯(lián)規(guī)則“不買茶,則不買咖啡”,該否定式的關(guān)聯(lián)規(guī)則沒(méi)有實(shí)際應(yīng)用價(jià)值。
為了彌補(bǔ)“支持度-置信度”框架的不足,引入了興趣度,以修剪具有“干擾性”的關(guān)聯(lián)規(guī)則。該興趣度用于在挖掘出關(guān)聯(lián)規(guī)則之后,對(duì)關(guān)聯(lián)規(guī)則進(jìn)行評(píng)價(jià)和過(guò)濾。但是,對(duì)于被過(guò)濾掉的項(xiàng)集來(lái)說(shuō),在挖掘關(guān)聯(lián)規(guī)則的過(guò)程中仍然需要計(jì)算該項(xiàng)集的支持度和置信度,增加了冗余的計(jì)算量,極大地降低了效率。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)的問(wèn)題,本發(fā)明實(shí)施例提供了一種有趣項(xiàng)集獲取方法和裝置。所述技術(shù)方案如下:
第一方面,提供了一種有趣項(xiàng)集獲取方法,所述方法包括:
掃描待分析的事務(wù)集,得到所述事務(wù)集中的每個(gè)項(xiàng)目,并計(jì)算每個(gè)項(xiàng)目的支持度,所述事務(wù)集包括多個(gè)事務(wù),每個(gè)事務(wù)包括至少一個(gè)項(xiàng)目;
基于每個(gè)項(xiàng)目的支持度,得到多個(gè)候選項(xiàng)集;
對(duì)于每個(gè)候選項(xiàng)集,計(jì)算所述候選項(xiàng)集的支持度和余弦相似度;
判斷所述候選項(xiàng)集的余弦相似度是否大于第一預(yù)設(shè)閾值,并判斷所述候選項(xiàng)集的支持度是否大于第二預(yù)設(shè)閾值;
當(dāng)所述候選項(xiàng)集的余弦相似度大于所述第一預(yù)設(shè)閾值,且所述候選項(xiàng)集的支持度大于所述第二預(yù)設(shè)閾值時(shí),將所述候選項(xiàng)集作為有趣項(xiàng)集。
第二方面,提供了一種有趣項(xiàng)集獲取裝置,所述裝置包括:
掃描模塊,用于掃描待分析的事務(wù)集,得到所述事務(wù)集中的每個(gè)項(xiàng)目,并計(jì)算每個(gè)項(xiàng)目的支持度,所述事務(wù)集包括多個(gè)事務(wù),每個(gè)事務(wù)包括至少一個(gè)項(xiàng)目;
候選項(xiàng)集獲取模塊,用于基于每個(gè)項(xiàng)目的支持度,得到多個(gè)候選項(xiàng)集;
計(jì)算模塊,用于對(duì)于每個(gè)候選項(xiàng)集,計(jì)算所述候選項(xiàng)集的支持度和余弦相似度;
判斷模塊,用于判斷所述候選項(xiàng)集的余弦相似度是否大于第一預(yù)設(shè)閾值,并判斷所述候選項(xiàng)集的支持度是否大于第二預(yù)設(shè)閾值;
有趣項(xiàng)集獲取模塊,用于當(dāng)所述候選項(xiàng)集的余弦相似度大于所述第一預(yù)設(shè)閾值,且所述候選項(xiàng)集的支持度大于所述第二預(yù)設(shè)閾值時(shí),將所述候選項(xiàng)集作為有趣項(xiàng)集。
本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果是:
本發(fā)明實(shí)施例提供的方法和裝置,通過(guò)定義項(xiàng)集的余弦相似度,在獲取有趣項(xiàng)集的過(guò)程中,計(jì)算候選項(xiàng)集的支持度和余弦相似度,通過(guò)判斷該候選項(xiàng)集的余弦相似度是否大于第一預(yù)設(shè)閾值,并判斷該候選項(xiàng)集的支持度是否大于第二預(yù)設(shè)閾值,對(duì)候選項(xiàng)集進(jìn)行過(guò)濾。與使用“支持度-置信度”框架挖掘出關(guān)聯(lián)規(guī)則再使用興趣度進(jìn)行過(guò)濾相比,應(yīng)用余弦相似度這一客觀興趣度和支持度,能夠在挖掘有趣項(xiàng)集的同時(shí),對(duì)候選項(xiàng)集進(jìn)行評(píng)價(jià)和過(guò)濾,以修剪“干擾性”的候選項(xiàng)集,無(wú)需計(jì)算出所有候選項(xiàng)集的支持度和置信度后再進(jìn)行過(guò)濾,降低了計(jì)算量,提高了挖掘效率。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實(shí)施例提供的一種有趣項(xiàng)集獲取方法的流程圖;
圖2是本發(fā)明實(shí)施例提供的一種有趣項(xiàng)集獲取方法的流程圖;
圖3是本發(fā)明實(shí)施例提供的項(xiàng)集枚舉樹(shù)形圖;
圖4是本發(fā)明實(shí)施例提供的一種有趣項(xiàng)集獲取裝置結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
圖1是本發(fā)明實(shí)施例提供的一種有趣項(xiàng)集獲取方法的流程圖,參見(jiàn)圖1,所述方法包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于孫寶文;祝世偉,未經(jīng)孫寶文;祝世偉許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410078745.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計(jì)算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計(jì)算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動(dòng)態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹(shù)結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





