[發明專利]數據處理方法、裝置、電子產品及介質在審
| 申請號: | 202010133945.6 | 申請日: | 2020-02-28 |
| 公開(公告)號: | CN113326295A | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 屠志強 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/2455;G06Q10/06 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 趙婷 |
| 地址: | 100086 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 電子產品 介質 | ||
本公開提供了一種數據處理方法,包括:獲取目標數據集,其中,目標數據集包含多個原始項集,每個原始項集包含一個或多個項;確定與每個原始項集對應的支持度和置信度;確定目標支持度閾值和目標置信度閾值,其中,目標支持度閾值是基于預設的最小支持度閾值確定的,目標置信度閾值是基于預設的最小置信度閾值確定的;以及基于目標支持度閾值和目標置信度閾值,獲得目標數據集中的頻繁項集,其中,與頻繁項集對應的支持度大于目標支持度閾值,與頻繁項集對應的置信度大于目標置信度閾值。本公開還公開了一種數據處理裝置、電子產品和計算機可讀存儲介質。
技術領域
本公開涉及數據處理領域,更具體地,涉及一種數據處理方法、裝置、電子產品及介質。
背景技術
數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。關聯規則挖掘是數據挖掘中非常重要,也是最活躍的研究方向之一,主要任務是設法發現數據的內在關聯性,通過對數據的關聯性進行分析和挖掘,挖掘出的關聯性在決策制定過程中具有重要的參考價值。
Apriori算法是一種用于關聯規則挖掘(Association Rule Mining,ARM)的代表性算法,屬于一種非機器學習的數據挖掘技術,廣泛應用到商業、網絡安全等多個領域。Apriori算法直接從原始數據集入手,通過逐層搜索的迭代方法找出原始數據集中項集之間的關系,以形成關聯規則。
但是,現有的Apriori算法對于關聯規則要求過于嚴格,在數據質量差的情況時,結果不穩定很容易受到樣本數據和參數選擇的影響,無法滿足實際經營中多樣的目標要求。
發明內容
有鑒于此,本公開提供了一種改進的數據處理方法及裝置,可以克服關聯規則要求過于嚴格,導致結果不穩定,且無法滿足實際商業經營中多樣的目標的要求。
本公開的一個方面提供了一種數據處理方法,包括:獲取目標數據集,其中,上述目標數據集包含多個原始項集,每個原始項集包含一個或多個項,確定與上述每個原始項集對應的支持度和置信度,確定目標支持度閾值和目標置信度閾值,其中,上述目標支持度閾值是基于預設的最小支持度閾值確定的,上述目標置信度閾值是基于預設的最小置信度閾值確定的,以及基于上述目標支持度閾值和目標置信度閾值,獲得上述目標數據集中的頻繁項集,其中,與上述頻繁項集對應的支持度大于上述目標支持度閾值,與上述頻繁項集對應的置信度大于上述目標置信度閾值。
根據本公開的實施例,上述確定目標支持度閾值和目標置信度閾值包括:確定目標支持度松弛變量和目標置信度松弛變量,其中,上述目標支持度松弛變量和上述目標置信度松弛變量為正數,確定目標支持度懲罰因子和目標置信度懲罰因子,其中,上述目標支持度懲罰因子和上述目標置信度懲罰因子為正數,基于上述預設的最小支持度閾值、上述目標支持度松弛變量和/或上述目標支持度懲罰因子,確定上述目標支持度閾值,以及基于上述預設的最小置信度閾值、上述目標置信度松弛變量和/或,上述目標置信度懲罰因子,確定上述目標置信度閾值。
根據本公開的實施例,上述確定目標支持度松弛變量和目標置信度松弛變量包括:確定與上述目標支持度松弛變量和目標置信度松弛變量對應的目標閾值,其中,上述目標閾值用于表征上述目標支持度松弛變量和上述目標置信度松弛變量之和的最大值,基于上述目標閾值,設置搜索步長和搜索步數,基于上述搜索步長和上述搜索步數,構建搜索網格,其中,上述搜索網格包括多個網格,每個網格中包含有擬定支持度松弛變量和擬定置信度松弛變量,以及遍歷上述多個網格,以確定上述目標支持度松弛變量和目標置信度松弛變量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010133945.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可調式縫線鎖扣
- 下一篇:物流配送中的配送路徑規劃方法、裝置、電子設備和介質





