[發明專利]一種基于加權關聯規則算法的乳腺癌分類方法在審
| 申請號: | 202110563903.0 | 申請日: | 2021-05-24 |
| 公開(公告)號: | CN113192632A | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | 胡曉慧;苗世迪;李思琪;王瑞濤 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G16H50/20 | 分類號: | G16H50/20;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150080 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 加權 關聯 規則 算法 乳腺癌 分類 方法 | ||
1.一種基于加權關聯規則算法的乳腺癌分類方法,其特征在于,該方法包括以下步驟:
步驟1:數據輸入模塊,用于獲取待分類的乳腺癌數據。
步驟2:數據預處理模塊,用于對待分類的乳腺癌數據進行數據的預處理。
步驟3:特征加權模塊,用于采用信息增益的方法對預處理后的乳腺癌數據的特征進行加權。
步驟4:數據分類模塊,用于采用關聯規則分類算法對特征加權后的乳腺癌測試數據進行分類。
2.根據權利要求1所述的一種基于加權關聯規則算法的乳腺癌分類方法,其特征在于,所述步驟2中,數據預處理模塊,對待分類的乳腺癌數據進行預處理,具體步驟為:
步驟2-1刪除所述乳腺癌數據中含有缺失值的實例;
步驟2-2采用自上而下的、有監督的CAIM離散算法對無缺失值的乳腺癌數據的連續型屬性進行離散化處理,處理公式為:
其中,qir(i=1,2,...,S;r=1,2,...,n)表示實例中屬于i類且屬于區間(dr-1,dr]的個數,maxr是所有qir中的最大值,Mi+是屬于第i類的實例個數總和,M+r是屬于區間(dr-1,dr]的實例個數總和,n表示區間個數,caim值越大表明類和屬性相關度越大,所選擇的斷點越合理。
3.根據權利要求1所述的一種基于加權關聯規則算法的乳腺癌分類方法,其特征在于,所述步驟3中,特征加權模塊,采用信息增益的方法對預處理后的乳腺癌數據的特征進行加權,具體步驟為:
步驟3-1計算每個特征的信息增益值,其計算公式為:
IG=H(Class)+H(Attibute)-H(Class,Attibute)
其中,H是由定義的香農熵,P(Xi)為概率函數;
步驟3-2根據計算信息增益值得出的特征重要性為每個特征使用1-10的比例分配權重,特征權重基于三種不同的度量:高、中、低,高測度表示從8到10的標度值,中等表示從4到7的值,低測度表示從1到3的值。
4.根據權利要求1所述的一種基于加權關聯規則算法的乳腺癌分類方法,其特征在于,所述步驟4中,數據分類模塊,采用關聯規則分類算法對特征加權后的乳腺癌測試數據進行分類,具體步驟為:
步驟4-1從數據中調用訓練集Train={(x1,y1),(x2,y2),...,(xN,yN)},其中是第i個實例的第j個特征,N為訓練集實例個數,n為特征總數;
步驟4-2計算訓練集中生成的所有候選k(k=1,2,3,...n)項集規則的支持度,計算公式為:
其中,suppcount定義為suppcount(r)=r∪ci,表示為項集規則的支持計數,r為項集規則,ci(i=1,2...n)為r所屬的類別;
步驟4-3計算訓練集中生成的所有候選k項集規則的權重,計算公式為:
其中,item為項集,k為項集個數;
步驟4-4計算訓練集中生成的所有候選k項集規則的加權支持度,計算公式為:
Weighted support(r)=Weight(r)*Support(r);
步驟4-5查找滿足加權支持度大于或等于給定的最小支持度的頻繁k項集規則;
步驟4-6使用前面步驟4-2、步驟4-3、步驟4-4和步驟4-5中解釋的相同過程,依次生成候選k(k=1,2,3,...n)項集規則,在創建候選k項集規則時,k項集規則的前k-2項必須與k-1項集規則的前k-2項匹配;
步驟4-7查找滿足加權支持度大于或等于給定的最小支持度的頻繁k項集規則,最終結合所有的頻繁項集規則產生規則集;
步驟4-8在產生的規則集中保留所有滿足最小置信度(≥0.4)的規則,并刪除其他規則,置信度的計算公式為:
其中,actoccr(r)為與r規則的分類類別相同的實例數;
步驟4-9計算規則集中的統計諧波均值(HM),并根據HM值對規則集中的規則進行排序,如果多個規則具有相同的HM度量值,則將分別根據置信度、加權支持度和支持度對規則進行排序,計算HM值公式如下:
步驟4-10應用數據覆蓋的M1方法將規則拆分為兩組,即強規則和備擇規則;
步驟4-11根據上訴所得的強規則與備擇規則來預測測試集的分類,首先在強規則集中找匹配的規則,如果在強規則集中未找到匹配規則,則繼續搜索備擇規則集,否則,給定的實例將被預測為默認類,其中默認類是具有最大頻率的類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110563903.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型可循環霧培裝置
- 下一篇:一種粉末飲片自動包裝機





