[發明專利]一種模式挖掘方法及裝置有效
| 申請號: | 201610856770.5 | 申請日: | 2016-09-27 |
| 公開(公告)號: | CN107870939B | 公開(公告)日: | 2021-04-27 |
| 發明(設計)人: | 林浚瑋;肖磊;陳偉;張杰雄 | 申請(專利權)人: | 騰訊科技(深圳)有限公司;哈爾濱工業大學深圳研究生院 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 模式 挖掘 方法 裝置 | ||
1.一種模式挖掘方法,其特征在于,包括:
掃描數據庫中包含的各事務,獲取在各事務中效用值的和值達到設定的擴展效用閥值的項目,由獲取的項目組成第1層候選模式集合HTWUSPI1,所述數據庫中各事務包含的項目構成項目集,所述候選模式集合中每一候選模式均是由所述項目集中的項目組成;
記錄所述項目集中各項目所在事務,以及被記錄的各事務的效用值;
利用Apriori_gen函數以及所述HTWUSPI1,逐層產生第k層候選模式集合HTWUSPIk,直至HTWUSPIk+1為空,由HTWUSPI1至HTWUSPIk組成最終的候選模式集合;
針對所述候選模式集合中每一候選模式,計算所述候選模式在每一事務中的效用值;
確定所述效用值達到設定的效用閥值的目標事務,并根據各所述目標事務的時間屬性,確定所述候選模式的周期值,其中,所述擴展效用閥值大于等于所述效用閥值;
若所述候選模式的周期值小于等于設定的周期閥值,則將所述候選模式確定為挖掘結果;
其中,HTWUSPIk的產生過程包括:
對HTWUSPIk-1中的候選模式兩兩組合,得到若干候選模式對;
在所述若干候選模式對中,選取包含k-2個相同項目的候選模式對;
由選取的候選模式對進行合并,得到初步候選模式;
針對每一初步候選模式,確定所述初步候選模式所包含的每一項目所在的事務,并確定各項目所在事務的交集,將交集事務確定為所述初步候選模式所在的事務;
至少在所述初步候選模式所在的各事務的效用值的和值達到所述擴展效用閥值時,將所述初步候選模式加入HTWUSPIk。
2.根據權利要求1所述的方法,其特征在于,所述根據各所述目標事務的時間屬性,確定所述候選模式的周期值,包括:
根據各目標事務的時間屬性,計算相鄰兩目標事務的時間差值;
將各所述時間差值中最大時間差值確定為所述候選模式的周期值。
3.根據權利要求2所述的方法,其特征在于,所述根據各目標事務的時間屬性,計算相鄰兩目標事務的時間差值,包括:
針對數據庫中順序排序的各目標事務,若所述目標事務之前不存在任何其它目標事務,則計算所述目標事務與所述數據庫中首個事務的時間差值;
若所述目標事務之后不存在任何其它目標事務,則計算所述數據庫中末尾事務與所述目標事務的時間差值;
若所述目標事務之前存在其它目標事務,則計算所述目標事務與前一相鄰目標事務的時間差值。
4.根據權利要求1所述的方法,其特征在于,所述至少在所述初步候選模式所在的各事務的效用值的和值達到所述擴展效用閥值時,將所述初步候選模式加入HTWUSPIk,包括:
計算所述初步候選模式所在的各事務的效用值的和值;
根據所述初步候選模式所在的各事務的時間屬性,確定所述初步候選模式的周期值;
在所述初步候選模式所在的各事務的效用值的和值達到所述擴展效用閥值,且所述初步候選模式的周期值小于等于設定的周期閥值時,將所述初步候選模式加入HTWUSPIk。
5.根據權利要求1所述的方法,其特征在于,在所述記錄所述項目集中各項目所在事務,以及被記錄的各事務的效用值之后,還包括:
確定事務的效用值小于所述效用閥值的低效用事務,并在記錄的各項目所在事務中刪除所述低效用事務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司;哈爾濱工業大學深圳研究生院,未經騰訊科技(深圳)有限公司;哈爾濱工業大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610856770.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種圖片交互處理應用界面的集成系統
- 下一篇:一種文件存儲方法及裝置





