[發明專利]一種基于加權關聯規則算法的乳腺癌分類方法在審
| 申請號: | 202110563903.0 | 申請日: | 2021-05-24 |
| 公開(公告)號: | CN113192632A | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | 胡曉慧;苗世迪;李思琪;王瑞濤 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G16H50/20 | 分類號: | G16H50/20;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150080 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 加權 關聯 規則 算法 乳腺癌 分類 方法 | ||
本發明涉及一種基于加權關聯規則算法的乳腺癌分類方法,該方法包括以下步驟:數據輸入模塊,用于獲取待分類的乳腺癌數據;數據預處理模塊,用于對待分類的乳腺癌數據進行數據的預處理;特征加權模塊,用于采用信息增益的方法對預處理后的乳腺癌數據的特征進行加權;數據分類模塊,用于采用關聯規則分類算法對特征加權后的乳腺癌測試數據進行分類,與現有的相關技術相比,本發明用信息增益值確定特征重要性,為每個特征分配相應的權重,關聯規則剪枝過程中使用HM值和屬性級別上的優先級來度量規則,最終形成的規則集用于乳腺癌的分類,提高了分類的性能。
技術領域:
本發明涉及數據分類的技術,尤其是涉及一種基于加權關聯規則算法的乳腺癌分類方法,該方法在預測乳腺癌疾病方面有著很好的應用。
背景技術:
乳腺癌是人類第二常見的腫瘤,占女性癌癥的四分之一,在其他類型的癌癥中,它被認為是大多數國家婦女死亡的主要原因,一個有效的分類器,準確地幫助醫生來預測這一慢性疾病是迫切需要的,許多學者采用關聯規則分類技術,通過應用關聯規則來增強分類的過程,從而來解決這一問題,然而,大多數關聯規則分類算法都受到規則評估過程中所使用的評估度量以及屬性級別上的優先級技術的影響,這些技術可能在規則生成過程中發揮著至關重要的作用,本發明試圖通過基于加權關聯規則算法的分類來解決這一問題,提出了一種基于統計諧波均值(HM)的預剪枝技術,以生成更準確的關聯規則,從而來提高關聯規則分類器的性能。
發明內容:
本發明的目的就是為了解決上述現有相關技術存在的問題而提供的一種基于加權關聯規則算法的乳腺癌分類算法。
為此,本發明提供了如下技術方案:
1.一種基于加權關聯規則算法的乳腺癌分類方法,其特征在于,該方法包括以下步驟:
步驟1:數據輸入模塊,用于獲取待分類的乳腺癌數據。
步驟2:數據預處理模塊,用于對待分類的乳腺癌數據進行數據的預處理。
步驟3:特征加權模塊,用于采用信息增益的方法對預處理后的乳腺癌數據的特征進行加權。
步驟4:數據分類模塊,用于采用關聯規則分類算法對特征加權后的乳腺癌測試數據進行分類。
2.根據權利要求1所述的一種基于加權關聯規則算法的乳腺癌分類方法,其特征在于,所述步驟2中,數據預處理模塊,對待分類的乳腺癌數據進行預處理,具體步驟為:
步驟2-1刪除所述乳腺癌數據中含有缺失值的實例;
步驟2-2采用自上而下的、有監督的CAIM離散算法對無缺失值的乳腺癌數據的連續型屬性進行離散化處理,處理公式為:
其中,qir(i=1,2,...,S;r=1,2,...,n)表示實例中屬于i類且屬于區間(dr-1,dr]的個數,maxr是所有qir中的最大值,Mi+是屬于第i類的實例個數總和,M+r是屬于區間(dr-1,dr]的實例個數總和,n表示區間個數,caim值越大表明類和屬性相關度越大,所選擇的斷點越合理。
3.根據權利要求1所述的一種基于加權關聯規則算法的乳腺癌分類方法,其特征在于,所述步驟3中,特征加權模塊,采用信息增益的方法對預處理后的乳腺癌數據的特征進行加權,具體步驟為:
步驟3-1計算每個特征的信息增益值,其計算公式為:
IG=H(Class)+H(Attibute)-H(Class,Attibute)
其中,H是由定義的香農熵,P(Xi)為概率函數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110563903.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型可循環霧培裝置
- 下一篇:一種粉末飲片自動包裝機





