[發明專利]規則挖掘方法和裝置及存儲介質在審
| 申請號: | 201910065658.3 | 申請日: | 2019-01-23 |
| 公開(公告)號: | CN111475707A | 公開(公告)日: | 2020-07-31 |
| 發明(設計)人: | 王蒙;宋廣正;劉鑫;王發慶;向勇;余鑫;闞景森 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/2458;G06N5/02;G06Q30/06 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 許蓓 |
| 地址: | 100086 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 規則 挖掘 方法 裝置 存儲 介質 | ||
本公開提出一種規則挖掘方法和裝置及存儲介質,涉及知識發現領域。本公開利用綜合興趣度度量算法挖掘強關聯規則,根據綜合興趣度的特性,能更好的衡量和評價關聯規則的關聯性,更有效的挖掘出強關聯規則。
技術領域
本公開涉及知識發現領域,特別涉及一種規則挖掘方法和裝置及存儲介質。
背景技術
數據庫中存儲的數據量非常大。“知識發現”技術涉及到在數據庫中發現新穎的、未知的和潛在有用的知識。
知識發現的主要任務稱為數據挖掘,如在事務數據庫中挖掘關聯規則。規則挖掘相關的興趣度度量算法例如有關于支持度和置信度的興趣度、PS(Piantesky Shapiro)興趣度、GO(Gray Orlowska)興趣度、提升(lift)興趣度等。
發明內容
發明人發現,相關技術中的度量算法或多或少存在一些設計缺陷,使得挖掘出的規則與事實相違背,或是難以挖掘出隱藏的規則等。
鑒于此,本公開提出一種基于新型的綜合興趣度度量算法實現的規則挖掘方案,從一些方面改善挖掘結果。
本公開的一些實施例提出一種規則挖掘方法,包括:
獲取事務數據庫中的各項事務,每項事務包括若干項集;
根據綜合興趣度度量算法計算任意兩個項集之間的綜合興趣度;
將綜合興趣度符合預設的綜合興趣度閾值的兩個項集確定為第一強關聯規則,各個第一強關聯規則組成第一強關聯規則集合;
其中,綜合興趣度度量算法的表達式為:Iinterest(X→Y)=a((|XY|/N)c-(|X|/N)c(|Y|/N)c)(1-|Y|/N)/(1-|XY|/N)
其中,Iinterest(X→Y)表示關聯規則X→Y的綜合興趣度,X和Y分別稱為關聯規則的先導和后繼,X和Y分別表示一個項集,N、|XY|、|X|、|Y|依次表示事務數據庫的事務集合、包含X和Y的事務數、包含X的事務數、包含Y的事務數,c為可調整的因數,a為可設置的系數。
一些實施例中,c的值根據最佳支持度b進行調整。
一些實施例中,c=(-ln2)/lnb。
一些實施例中,a=4。
一些實施例中,將綜合興趣度大于或等于最小綜合興趣度的兩個項集確定為第一強關聯規則。
一些實施例中,還包括:
計算任意兩個項集之間的第二興趣度,第二興趣度是指除綜合興趣度之外的其他興趣度;
將第二興趣度符合相應的第二興趣度閾值的兩個項集確定為第二強關聯規則,各個第二強關聯規則組成第二強關聯規則集合;
根據第一強關聯規則集合并結合第二強關聯規則集合確定強關聯規則庫。
一些實施例中,將第一強關聯規則集合與至少一個第二強關聯規則集合的交集或并集確定為強關聯規則庫。
一些實施例中,第二興趣度包括:關于支持度和置信度的興趣度、PS興趣度、GO興趣度、提升興趣度。
一些實施例中,還包括:
將用戶輸入的項集作為強關聯規則的先導,從第一強關聯規則集合中匹配相應的后繼;
向用戶輸出匹配到的后繼。
一些實施例中,還包括:
將用戶輸入的項集作為強關聯規則的先導,從強關聯規則庫中匹配相應的后繼;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910065658.3/2.html,轉載請聲明來源鉆瓜專利網。





