[發明專利]有效時間的高期望權重項集挖掘方法、裝置及處理設備有效
| 申請號: | 201610847309.3 | 申請日: | 2016-09-23 |
| 公開(公告)號: | CN107870913B | 公開(公告)日: | 2021-12-14 |
| 發明(設計)人: | 林浚瑋;甘文生;肖磊;陳偉 | 申請(專利權)人: | 騰訊科技(深圳)有限公司;哈爾濱工業大學深圳研究生院 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 有效 時間 期望 權重 挖掘 方法 裝置 處理 設備 | ||
本發明實施例提供一種有效時間的高期望權重項集挖掘方法、裝置及處理設備,該方法包括:確定待處理項集所對應的至少一個目標事務;確定所述待處理項集在不確定數據庫中的時間有效值;確定所述待處理項集的期望支持度;將所述待處理項集的期望支持度,和所述待處理項集的項集權重值相乘,確定所述待處理項集的期望權重支持度;如果所述待處理項集在不確定數據庫中的時間有效值不小于,預定義的最低時間有效閾值,且所述待處理項集的期望權重支持度,不小于,預定義的最低期望權重閾值和不確定數據庫中事務總數的乘積,則確定所述待處理項集為有效時間的高期望權重項集。本發明實施例實現了不確定數據庫中有效時間的高期望權重項集的挖掘。
技術領域
本發明涉及數據處理技術領域,具體涉及一種有效時間的高期望權重項集挖掘方法、裝置及處理設備。
背景技術
目前在對用戶感興趣的內容(如網頁、新聞、商品等)進行推薦,對頻繁搜索的熱點高頻詞進行挖掘時,往往需要從數據庫中挖掘出有效時間的高期望權重項集;有效時間的高期望權重項集指的是,數據庫中具有高時效性且期望頻繁的項集,表示的是數據庫中近期有效的高期望權重項集。需要說明的是,數據庫通常記錄有至少一條交易、新聞等事務,每條事務中包括至少一個數據項,而為表征數據庫中數據項間的關聯規則,至少一個數據項又會集合形成一個項集。
目前一般是基于權重因素的挖掘算法,從數據庫中挖掘出有效時間的高期望權重項集,這些算法一般是簡單的基于權重因素進行項集的挖掘,只能對存儲有精確數據的數據庫進行項集的挖掘;然而,在實際挖掘過程中,數據的型態各異,數據庫中的數據往往蘊含著不確定性(即數據庫中往往存儲有不確定數據);當從存儲有不確定數據的數據庫(簡稱不確定數據庫)挖掘有效時間的高期望權重項集時,目前的這些基于權重因素的挖掘算法并不適用;比如,某數據庫中儲存了過去三年的交易記錄,里面的數據項為不同的商品,其中,筆記本對應的權重值為0.4,面包對應的權重值為0.001,電風扇對應的權重值則為0.05,可見,數據項間對應的權重值是不同的,如果需要挖掘出六個月里的高期望權重項集,則根據目前的基于權重因素的挖掘算法是無法對不確定數據庫進行挖掘的,會導致挖掘不出有效時間的高期望權重項集的情況出現。
發明內容
有鑒于此,本發明實施例提供一種有效時間的高期望權重項集挖掘方法、裝置及處理設備,以從不確定數據庫中挖掘出有效時間的高期望權重項集。
為實現上述目的,本發明實施例提供如下技術方案:
一種有效時間的高期望權重項集挖掘方法,包括:
確定待處理項集所對應的至少一個目標事務;所述待處理項集所對應的目標事務為,不確定數據庫中包含所述待處理項集所有數據項的事務;
根據預定義的時間衰減因子,確定所述待處理項集在各目標事務中的時間有效值;將所述待處理項集在各目標事務中的時間有效值相加,確定所述待處理項集在不確定數據庫中的時間有效值;
確定所述待處理項集在各目標事務中的項集概率;將所述待處理項集在各目標事務中的項集概率相加,確定所述待處理項集的期望支持度;
將所述待處理項集的期望支持度,和所述待處理項集的項集權重值相乘,確定所述待處理項集的期望權重支持度;其中,所述待處理項集的項集權重值根據預定義的所述待處理項集中各個數據項的權重值確定;
如果所述待處理項集在不確定數據庫中的時間有效值不小于,預定義的最低時間有效閾值,且所述待處理項集的期望權重支持度,不小于,預定義的最低期望權重閾值和不確定數據庫中事務總數的乘積,則確定所述待處理項集為有效時間的高期望權重項集。
本發明實施例還提供一種有效時間的高期望權重項集挖掘裝置,包括:
目標事務確定模塊,用于確定待處理項集所對應的至少一個目標事務;所述待處理項集所對應的目標事務為,不確定數據庫中包含所述待處理項集所有數據項的事務;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司;哈爾濱工業大學深圳研究生院,未經騰訊科技(深圳)有限公司;哈爾濱工業大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610847309.3/2.html,轉載請聲明來源鉆瓜專利網。





