[發明專利]用于發現文本詞間關聯規則的完全加權模式挖掘方法有效
| 申請號: | 201410096985.2 | 申請日: | 2014-03-14 |
| 公開(公告)號: | CN103838854B | 公開(公告)日: | 2017-03-22 |
| 發明(設計)人: | 黃名選 | 申請(專利權)人: | 廣西財經學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 廣西南寧公平知識產權代理有限公司45104 | 代理人: | 韋錦捷 |
| 地址: | 530003 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 發現 文本 關聯 規則 完全 加權 模式 挖掘 方法 | ||
1.一種用于發現文本詞間關聯規則的完全加權模式挖掘方法,其特征在于,包括如下步驟:
(1)完全加權數據預處理階段:將待處理的完全加權數據進行預處理,構建完全加權數據庫和項目庫;
(2)完全加權頻繁項集和負項集挖掘階段,包括以下步驟2.1和步驟2.2:
2.1、從項目庫中提取完全加權候選1_項集,并挖掘完全加權頻繁1_項集;具體步驟按照2.1.1~2.1.3進行:
2.1.1、從項目庫中提取完全加權候選1_項集;
2.1.2、累加完全加權候選1_項集在完全加權數據庫中的權值總和,計算其支持度;
2.1.3、將完全加權候選1_項集中支持度大于或等于最小支持度閾值的完全加權頻繁1_項集加入到完全加權頻繁項集集合;
2.2、從完全加權候選2_項集開始,按照步驟2.2.1~2.2.4進行操作:
2.2.1、將完全加權頻繁(i-1)_項集進行Apriori連接,生成完全加權候選i_項集;所述的i≥2;
2.2.2、累加完全加權候選i_項集在完全加權數據庫中的權值總和,計算其支持度;
2.2.3、從完全加權候選i_項集中將其支持度不小于支持度閾值的頻繁i_項集取出,存入完全加權頻繁項集集合,同時,將其支持度小于支持度閾值的完全加權負i_項集存入完全加權負項集集合;
2.2.4、將i的值加1,如果頻繁(i-1)_項集為空就轉入(3)步,否則,繼續2.2.1~2.2.3步驟;
(3)剪枝階段:通過剪枝階段獲得有趣的完全加權頻繁項集和負項集:
3.1、對于頻繁項集集合中的每一個頻繁i-項集awLi,計算IAWFI(awLi)值,剪除其IAWFI(awLi)值為假的頻繁項集,剪枝后得到有趣的完全加權頻繁項集集合;
3.2、對于完全加權負項集集合中的每一個負i-項集awNi,計算IAWNI(awNi)值,剪除其IAWNI(awNi)值為假的負項集,剪枝后得到有趣的完全加權負項集集合;
(4)從有趣的完全加權頻繁項集集合中挖掘有效的完全加權正負關聯規則,包括以下步驟:
4.1、從有趣的完全加權頻繁項集集合取出頻繁項集awLi,求出awLi的所有真子集,構建awLi的真子集集合,然后進行下列操作:
4.2.1、從awLi的真子集集合中任意取出兩個真子集I1和I2,當I1和I2的交集為空集,I1和I2的項目個數之和等于其原頻繁項集的項目個數,以及I1和I2的支持度都不小于支持度閾值,則計算頻繁項集(I1∪I2)的項內權值比awIWR(I1,I2)及其維數比awIDR(I1,I2);
4.2.2、當數據庫中事務記錄總數(n)和上述4.2.1步的項內權值比(awIWR(I1,I2))的乘積大于其維數比(awIDR(I1,I2))時(即n×awIWR(I1,I2)>awIDR(I1,I2)),進行如下操作:
4.2.2.1若I1→I2的awCPIR值(awCPIR(I1→I2))不小于置信度閾值minconf,則挖掘出完全加權關聯規則I1→I2;若I2→I1的awCPIR值(awCPIR(I2→I1))不小于置信度閾值minconf,則挖掘出完全加權關聯規則I2→I1;
4.2.2.2若(﹁I1∪﹁I2)的支持度不小于支持度閾值minsup,那么,①如果﹁I1→﹁I2的awCPIR值(awCPIR(﹁I1→﹁I2))不小于置信度閾值minconf,則挖掘出完全加權負關聯規則﹁I1→﹁I2;②如果﹁I2→﹁I1的awCPIR值(awCPIR(﹁I2→﹁I1))不小于置信度閾值minconf,則挖掘出完全加權負關聯規則﹁I2→﹁I1;
4.2.3、當數據庫中事務記錄總數(n)和上述4.2.1步的項內權值比(awIWR(I1,I2))的乘積小于其維數比(awIDR(I1,I2))時(即n×awIWR(I1,I2)<awIDR(I1,I2)),進行如下操作:
4.2.3.1若(I1∪﹁I2)的支持度不小于支持度閾值minsup,那么,①如果I1→﹁I2的awCPIR值(awCPIR(I1→﹁I2))不小于置信度閾值minconf,則挖掘出完全加權負關聯規則I1→﹁I2;②如果﹁I2→I1的awCPIR值(awCPIR(﹁I2→I1))不小于置信度閾值minconf,則挖掘出完全加權負關聯規則﹁I2→I1;
4.2.3.2若(﹁I1∪I2)的支持度不小于支持度閾值minsup,那么,①如果﹁I1→I2的awCPIR值(awCPIR(﹁I1→I2))不小于置信度閾值minconf,則挖掘出完全加權負關聯規則﹁I1→I2;②如果I2→﹁I1的awCPIR值(awCPIR(I2→﹁I1))不小于置信度閾值minconf,則挖掘出完全加權負關聯規則I2→﹁I1;
4.2.4、繼續4.2.1~4.2.3步驟,如果awLi的真子集集合中每個真子集都當且僅當被取出一次,則轉入4.2.5步;
4.2.5,繼續4.1步驟,如果有趣的完全加權頻繁項集集合中每個頻繁項集awLi都當且僅當被取出一次,則轉入第(5)步;
(5)從有趣的完全加權負項集集合中挖掘有效的完全加權負關聯規則,包括以下步驟:
5.1、從有趣的完全加權負項集集合取出負項集awNi,求出awNi的所有真子集,構建awNi的真子集集合,然后進行下列操作:
5.2.1、從awNi的真子集集合中任意取出兩個真子集I1和I2,當I1和I2的交集為空集,I1和I2的項目個數之和等于其原頻繁項集的項目個數,以及I1和I2的支持度都大于或者等于支持度閾值,則計算負項集(I1∪I2)的項內權值比(awIWR(I1,I2))及其維數比(awIDR(I1,I2));
5.2.2、當數據庫中事務記錄總數(n)和上述5.2.1步的項內權值比(awIWR(I1,I2))的乘積大于其維數比(awIDR(I1,I2))時(即n×awIWR(I1,I2)>awIDR(I1,I2)),進行如下操作:
5.2.2.1若(﹁I1∪﹁I2)的支持度大于或者等于支持度閾值minsup,那么,①如果﹁I1→﹁I2的awCPIR值(awCPIR(﹁I1→﹁I2))大于或者等于置信度閾值minconf,則挖掘出完全加權負關聯規則﹁I1→﹁I2;②如果﹁I2→﹁I1的awCPIR值(awCPIR(﹁I2→﹁I1))大于或者等于置信度閾值minconf,則挖掘出完全加權負關聯規則﹁I2→﹁I1;
5.2.3、當數據庫中事務記錄總數(n)和上述5.2.1步的項內權值比(awIWR(I1,I2))的乘積小于其維數比(awIDR(I1,I2))時(即n×awIWR(I1,I2)<awIDR(I1,I2)),進行如下操作:
5.2.3.1若(I1∪﹁I2)的支持度大于或者等于支持度閾值minsup,那么,①如果I1→﹁I2的awCPIR值(awCPIR(I1→﹁I2))大于或者等于置信度閾值minconf,則挖掘出完全加權負關聯規則I1→﹁I2;②如果﹁I2→I1的awCPIR值(awCPIR(﹁I2→I1))大于或者等于置信度閾值minconf,則挖掘出完全加權負關聯規則﹁I2→I1;
5.2.3.2若(﹁I1∪I2)的支持度大于或者等于支持度閾值minsup,那么,①如果﹁I1→I2的awCPIR值(awCPIR(﹁I1→I2))大于或者等于置信度閾值minconf,則挖掘出完全加權負關聯規則﹁I1→I2;②如果I2→﹁I1的awCPIR值(awCPIR(I2→﹁I1))大于或者等于置信度閾值minconf,則挖掘出完全加權負關聯規則I2→﹁I1;
5.2.4、繼續5.2.1~5.2.3步驟,如果awNi的真子集集合中每個真子集都當且僅當被取出一次,則轉入5.2.5步;
5.2.5,繼續5.1步驟,如果有趣的完全加權負項集集合中每個負項集awNi都當且僅當被取出一次,則完全加權正負關聯規則挖掘結束;
所述的“﹁I1,﹁I2,I1∪﹁I2,I1→﹁I2”等符號中的“﹁”為負相關符號,﹁I1表示在事務處理中不出現I1的事件,稱為負項集I1;(I1∪﹁I2)表示一個項集,該項集有子項集I1和負子項集I2;關聯規則I1→﹁I2其含義是:如果子集I1的事件出現或者發生,那么子集I2的事件不會出現或者不發生。
2.根據權利要求1所述的用于發現文本詞間關聯規則的完全加權模式挖掘方法,其特征在于,所述的待處理的完全加權數據預處理的具體步驟為,當待處理的完全加權數據為中文文本數據時,進行分詞、去除停用詞、提取特征詞并計算其權值;當待處理的完全加權數據為英文文本數據時,進行詞干提取、排除停用詞、詞匯分析、提取特征詞并計算其權值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西財經學院,未經廣西財經學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410096985.2/1.html,轉載請聲明來源鉆瓜專利網。





