[發明專利]一種基于類-屬性關系依賴度的數據離散化方法無效
| 申請號: | 200910219832.1 | 申請日: | 2009-11-10 |
| 公開(公告)號: | CN101702172A | 公開(公告)日: | 2010-05-05 |
| 發明(設計)人: | 李克秋;王哲;桑雨;申嚴明 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 梅洪玉 |
| 地址: | 116085 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 屬性 關系 依賴度 數據 離散 方法 | ||
1.一種基于類-屬性關系依賴度的數據離散化方法,該方法基于類-屬性關系依賴度的CAIM算法,提出了有效的連續屬性離散化方案;綜合考慮了屬性重要性和決策表不一致率對離散化結果的影響,其特征在于具體方法過程如下:
輸入:一個具有m個實例,t個決策類和s個條件屬性的數據集;
第一階段:
(1)計算每個屬性的差集,并按屬性重要性由小到大的順序排序a1,a2,...as(a1代表重要性最小的屬性,as代表重要性最大的屬性)
(2)For(ai=a1;i<=s;i++)
{
Step1:
????找出屬性ai中的最小值xmin和最大值xmax;
????將屬性ai中所有不同的值按從小到大的順序排列{xmin,x2,...xmax};
????計算出所有相鄰的不同值之間的中間值作為候選斷點,計算公式為
????將候選斷點從大到小排序,初始化候選斷點集合B:{[d0,d1],(d1,d2],...,(dn-1,dn]};
????初始化斷點集合D:{[d0,dn]};
????初始化globalcaim=0;
????初始化k=1;
Step2:
????For(i=1;i<=n;i++)
????{
??????將候選斷點集合B中的一個候選斷點加入到斷點集合D中,并計算加入該點后的caim
??????值;
??????選取具有最大caim值的斷點dx;
?????}
??????While(caim>globalcaim?or?k<S)
????????{
???????令globalciam=caimmax;
???????令k=k+1;
???????將候選斷點dx從候選斷點集合B中移除,并加入到斷點集合D中;
???????For(i=1;i<=n;i++)
???????????{
??????????????將候選斷點集合B中的一個候選斷點加入到斷點集合D中,并計算加入該
??????????????點后的caim值;
?????????????????選取具有最大caim值的斷點dx;
????????????}
???????}
}
第二階段:
????Do{
?????????For(ai=as;i>=1;i--)
????{
????選出caim值最大的的斷點加入
????到離散斷點集合D中;
????????If(不一致率不變)
???????????{
??????????????從斷點集合D去掉該斷點;
??????????????Continue;
????????????}
?????}
}While(不一致率改變);
輸出:離散化斷點集合D。
2.根據權利要求1所述的一種基于類-屬性關系依賴度的數據離散化方法,其特征還在于:利用統計學中的λ相關系數作為離散化判別式來衡量類-屬性的相關程度從而自動的選擇離散斷點;λ相關系數作為離散化判別式的公式為:其中maxr表示由類-屬性二維矩陣表中某一區間下的某一屬性中樣本數最多的值,max(Mi+)表示決策類中具有樣本數最多的某一類的樣本數量,M代表樣本的總數量;具體過程如下所示:輸入:一個具有m個實例,t個決策類和s個條件屬性的數據集;
For(ai=a1;i<=s;i++)
{
Step1:
????找出屬性ai中的最小值xmin和最大值xmax;
????將屬性ai中所有不同的值按從小到大的順序排列{xmin,x2,...xmax};
????計算出所有相鄰的不同值之間的中間值作為候選斷點,計算公式為
????將候選斷點從大到小排序,初始化候選斷點集合B:{[d0,d1],(d1,d2],...,(dn-1,dn]};
????初始化斷點集合D:{[d0,dn]};
????初始化global?λ=0;
????初始化k=1;
Step2:
????For(i=1;i<=n;i++)
????{
??????將候選斷點集合中的一個候選斷點加入到斷點集合D中,并計算加入該點后的λ值;
??????選取具有最大λ值的斷點dx;
?????}
?????While(λ>globalλ?or?k<s)
???????{
???????????令globalλ=λmax;
???????????令k=k+1;
???????????將候選斷點dx從候選斷點集合B中移除,并加入到斷點集合D中;
???????????For(i=1;i<=n;i++)
???????????????{
?????????????????將候選斷點集合B中的一個候選斷點加入到斷點集合D中,并計算加入該
?????????點后的λ值;
???????????選取具有最大λ值的斷點dx;
???????}
????}
}
輸出:離散化斷點集合D。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910219832.1/1.html,轉載請聲明來源鉆瓜專利網。





