[發明專利]一種基于領域知識的多層關聯規則挖掘方法及系統在審
| 申請號: | 201310290018.5 | 申請日: | 2013-07-10 |
| 公開(公告)號: | CN104281617A | 公開(公告)日: | 2015-01-14 |
| 發明(設計)人: | 孟振宇;吳曉鸰;王慰;李建軍 | 申請(專利權)人: | 廣州中國科學院先進技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州新諾專利商標事務所有限公司 44100 | 代理人: | 肖云 |
| 地址: | 511458 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 領域 知識 多層 關聯 規則 挖掘 方法 系統 | ||
技術領域
本發明屬于數據挖掘技術領域,本發明具體涉及一種基于領域知識的多層關聯規則挖掘方法及系統。?
背景技術
近年來,隨著數據量的極速增長,從大量數據中自動搜索隱藏于其中的特殊相關性的數據挖掘技術應運而生。數據挖掘技術是人們長期對數據庫技術進行研究和開發的結果。起初僅僅是對存儲在計算機中數據庫的訪問與查詢。進入海量數據時期,數據挖掘的相關技術延伸到通過數據的查詢與遍歷,找到數據之前潛在的聯系,促進信息的傳遞。?
與基于Aprior思想的算法不同,多層關聯規則挖掘問題自提出以來,有人提出了基于FP-Growth思想的算法,其思想是:首先對原始事務數據庫中的項進行擴展,使之包含分類數據中各個層次的項,然后將擴展后的事務數據庫映射至一棵壓縮的FP-tree樹,由于樹的每個節點記載著對應項的計數信息,從而可以達到無需產生候選項集而直接找出頻繁項集的目的。與需要通過多次掃描事務數據庫,并通過計數來判定項集是否頻繁的候選項集挖掘算法相比,FP-tax算法使分類數據關聯規則的挖掘效率有了較大的提升。同時,FP-tax方法也因基于FP-Growth挖掘而具有自身的局限性。該方法在自下而上遍歷策略尋找每個項集的前綴頻繁項集時,由于無法重用原始的FP-tree而必須不斷循環新建以該項為前綴的條件FP-tree,從而使算法需要大量額外開銷;其分類數據關聯規則的挖掘歸根結底為一種完全無監督的學習過程,而在實際應用領域中,事務的項之間必定存在一定的相關性,有些項與項之間更是存在著大量父子或祖先后代等關系,而通過這些關系我們可以實現事務數據庫所在的領域知識的提取,以及有指導的關聯規則挖掘工作。?
Agrawal提出的Apriori算法是挖掘完全頻繁項集中有影響力的算法,是一種寬度優先算法,經過演化,提出了AprioriTid算法。之后Apriori算法和AprioriTid算法又融合生成AprioriHybrid算法。總體來說,寬度優先算法不足之處在于需要生成大量候選項集,需要多次掃描數據庫。FP-growth算法是另一種高效并且本質上不同于Apriori算法的經典算法。與Apriori算法相比,FP-growth算法有以下優點:只需要掃描兩次數據庫,不需要產生龐大的候選項集,在挖掘過程中降低了搜索空間。但其有應用難點,在處理很大的且很稀疏的數據庫時,挖掘處理與遞歸運算仍需要很大的空間。?
發明內容
本發明的目的在于提供一種基于領域知識的多層關聯規則挖掘方法及系統,不僅可以確保頻繁項集挖掘結果的正確性和完整性,而且還比現有同類最新挖掘算法具有更好的執行效率和擴展性。?
為了實現上述發明目的,本發明所采取的技術方案如下:?
一種基于領域知識的多層關聯規則挖掘方法,包括以下步驟:?
以領域知識作為基礎數據,根據該基礎數據的相關性構建領域相關性模型;?
以領域知識作為基礎數據,根據該基礎數據構建結構分類層;?
在所述結構分類層基礎上對項進行聚類存儲,從而產生項的聚類層以及構建原始事務數據庫;?
對所述原始事務數據庫進行層次分類,并將此層次分類映射到頻繁模式樹中構建頻繁模式樹結構;?
對頻繁模式樹進行搜索得到頻繁項集的結果。?
進一步的,所述原始事務數據庫中存儲的數據與領域知識一一對應。?
進一步的,所述將此層次分類映射到頻繁模式樹中構建頻繁模式樹結構,具體是:?
對于數據的項集進行編碼描述,其中每一個數據項集由數據項的屬性信息構成;?
將上述屬性信息按照多元組的形式進行構造性分類建立元組;?
根據構建的元組關系進行建頻繁模式樹的建立;?
對建頻繁模式樹節點進行編碼,其編碼規則依層次計算,每層節點按照非零十六進制數依次編碼;?
進行頻繁項集的搜索。?
進一步的,所述對于數據的項集進行編碼描述中的編碼由業務用戶序列號構成。?
進一步的,根據構建的元組關系進行建頻繁模式樹的建立,具體是:?
將元組的第一屬性作為父節點,之后的屬性依次作為次級節點以及葉子節點建立建頻繁模式樹。?
一種基于領域知識的多層關聯規則挖掘系統,包括以下模塊:?
領域相關性模型構建模塊,用于以領域知識作為基礎數據,根據該基礎數據的相關性構建領域相關性模型;?
結構分類層構建模塊,用于以領域知識作為基礎數據,根據該基礎數據構建結構分類層;?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州中國科學院先進技術研究所,未經廣州中國科學院先進技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310290018.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于傳輸裝置的壓輥組件
- 下一篇:晾衣架自動組裝系統的側框運送機構





