[發(fā)明專利]增量式隱私保護的頻繁模式挖掘方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201810588127.8 | 申請日: | 2018-06-08 |
| 公開(公告)號: | CN109062927A | 公開(公告)日: | 2018-12-21 |
| 發(fā)明(設計)人: | 尚凌輝;陳鑫;葉淑陽 | 申請(專利權)人: | 浙江捷尚人工智能研究發(fā)展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F21/62 |
| 代理公司: | 廣州市越秀區(qū)哲力專利商標事務所(普通合伙) 44288 | 代理人: | 胡擁軍;糜婧 |
| 地址: | 310000 浙江省杭州市余杭區(qū)五常*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數(shù)據(jù)庫 頻繁項集 頻繁模式 隱私保護 加權系數(shù) 增量式 支持度 挖掘 生成算法 挖掘結果 挖掘算法 增量更新 數(shù)據(jù)量 索引量 合并 引入 | ||
本發(fā)明公開了增量式隱私保護的頻繁模式挖掘方法及系統(tǒng),分別對原數(shù)據(jù)庫和新增數(shù)據(jù)庫進行頻繁模式挖掘,根據(jù)二者的數(shù)據(jù)量、索引量確定其加權系數(shù),再對原數(shù)據(jù)庫和新增數(shù)據(jù)庫的頻繁項集進行同類項合并,得到新數(shù)據(jù)庫的確認頻繁項集和待確認頻繁項集,將確認頻繁項集中的頻繁項列入新數(shù)據(jù)庫的頻繁項集,對于待確認頻繁項集中的待確認頻繁項,依次確認每個待確認頻繁項是否列入新數(shù)據(jù)庫的頻繁項集,獲取新數(shù)據(jù)庫的頻繁項集中每個頻繁項在新數(shù)據(jù)庫的支持度。本發(fā)明引入了增量更新模型,采用高效且簡單的頻繁項集生成算法,通過加權系數(shù)利用原數(shù)據(jù)庫的頻繁模式挖掘結果得到新數(shù)據(jù)庫中頻繁項的支持度,提高了隱私保護的頻繁模式挖掘算法的效率。
技術領域
本發(fā)明涉及信息技術和數(shù)據(jù)挖掘的技術領域,尤其涉及增量式隱私保護的頻繁模式挖掘方法及系統(tǒng)。
背景技術
目前,在隱私保護數(shù)據(jù)挖掘中的需求是,根據(jù)具體情況對原始數(shù)據(jù)庫中的記錄進行模糊化處理的同時保持數(shù)據(jù)的統(tǒng)計特性,即,在經(jīng)過處理的數(shù)據(jù)庫上進行數(shù)據(jù)挖掘,通過對數(shù)據(jù)的原始統(tǒng)計特性的估計來得到較為準確的處理結果,同時又不泄露用戶的原始數(shù)據(jù)。
頻繁模式是數(shù)據(jù)集中頻繁出現(xiàn)的項集、序列或子結構。頻繁模式挖掘是關聯(lián)規(guī)則、相關分析、因果分析的基礎,對分類、聚類也有很大幫助。它在實際中的應用非常廣泛,例如,購物籃分析、網(wǎng)頁日志分析、DNA序列分析等。因此,頻繁模式挖掘是一項非常重要的數(shù)據(jù)挖掘任務。
數(shù)據(jù)庫中所包含的數(shù)據(jù)并不會一成不變,其會隨著時間的流逝而產(chǎn)生或大或小的變化,由于數(shù)據(jù)庫的更新,會引入新的關聯(lián)規(guī)則并使一些現(xiàn)有的關聯(lián)規(guī)則失效,頻繁項集也存在類似的更新問題。針對數(shù)據(jù)庫中數(shù)據(jù)新增的問題,如果要在整個更新的數(shù)據(jù)庫上重新運行關聯(lián)規(guī)則挖掘算法,就會造成了之前挖掘結果的極大浪費。最初在找出舊的大項目集時完成的所有計算都被浪費,新的頻繁項集都必須重新開始計算,這樣必將導致現(xiàn)有技術的隱私保護的頻繁模式挖掘算法效率不高。
發(fā)明內容
為了克服現(xiàn)有技術的不足,本發(fā)明的目的在于提供增量式隱私保護的頻繁模式挖掘方法及系統(tǒng),旨在解決現(xiàn)有技術的隱私保護的頻繁模式挖掘算法效率不高的問題。
本發(fā)明的目的采用以下技術方案實現(xiàn):
一種增量式隱私保護的頻繁模式挖掘方法,包括:
設定步驟,設定原數(shù)據(jù)庫的閾值、新增數(shù)據(jù)庫的閾值、新數(shù)據(jù)庫的閾值;所述新數(shù)據(jù)庫為原數(shù)據(jù)庫增加了新增數(shù)據(jù)庫后形成的數(shù)據(jù)庫;
第一挖掘步驟,根據(jù)原數(shù)據(jù)庫的閾值對原數(shù)據(jù)庫進行頻繁模式挖掘,獲取原數(shù)據(jù)庫的頻繁項集、各頻繁項及其支持度;
第二挖掘步驟,根據(jù)新增數(shù)據(jù)庫的閾值對新增數(shù)據(jù)庫進行頻繁模式挖掘,獲取新增數(shù)據(jù)庫的頻繁項集、各頻繁項及其支持度;
系數(shù)確定步驟,根據(jù)原數(shù)據(jù)庫的數(shù)據(jù)量和索引量、新增數(shù)據(jù)庫的數(shù)據(jù)量和索引量,確定原數(shù)據(jù)庫的加權系數(shù)和新增數(shù)據(jù)庫的加權系數(shù);
合并步驟,對原數(shù)據(jù)庫的頻繁項集和新增數(shù)據(jù)庫的頻繁項集進行同類項合并,得到新數(shù)據(jù)庫的確認頻繁項集和待確認頻繁項集;
確認步驟,將確認頻繁項集中的頻繁項列入新數(shù)據(jù)庫的頻繁項集;對于待確認頻繁項集中的待確認頻繁項,依次確認每個待確認頻繁項是否列入新數(shù)據(jù)庫的頻繁項集;獲取新數(shù)據(jù)庫的頻繁項集中每個頻繁項在新數(shù)據(jù)庫的支持度。
在上述實施例的基礎上,優(yōu)選的,所述合并步驟,具體為:
將原數(shù)據(jù)庫的頻繁項集中的頻繁項和新增數(shù)據(jù)庫的頻繁項集中的頻繁項作為待確認頻繁項;
如果某待確認頻繁項同時出現(xiàn)在原數(shù)據(jù)庫和新增數(shù)據(jù)庫,則將該待確認頻繁項列入新數(shù)據(jù)庫的確認頻繁項集;
如果某待確認頻繁項只出現(xiàn)在原數(shù)據(jù)庫或者新增數(shù)據(jù)庫,則將該待確認頻繁項列入新數(shù)據(jù)庫的待確認頻繁項集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江捷尚人工智能研究發(fā)展有限公司,未經(jīng)浙江捷尚人工智能研究發(fā)展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810588127.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)庫
- 數(shù)據(jù)庫管理系統(tǒng)及數(shù)據(jù)庫
- 數(shù)據(jù)庫構筑裝置、數(shù)據(jù)庫檢索裝置、數(shù)據(jù)庫裝置、數(shù)據(jù)庫構筑方法、以及數(shù)據(jù)庫檢索方法
- 數(shù)據(jù)庫和數(shù)據(jù)庫處理方法
- 數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)庫更新方法、數(shù)據(jù)庫以及數(shù)據(jù)庫更新程序
- 容器數(shù)據(jù)庫
- 數(shù)據(jù)庫同步方法及數(shù)據(jù)庫
- 一種MongoDB數(shù)據(jù)庫對象復制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲方法、裝置、電子設備及存儲介質
- 數(shù)據(jù)庫語句執(zhí)行方法及裝置





