[發明專利]一種不完備數據集快速屬性約簡方法在審
| 申請號: | 202110722842.8 | 申請日: | 2018-12-21 |
| 公開(公告)號: | CN113345588A | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 閆濤;韓崇昭 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G16H50/30 | 分類號: | G16H50/30;G06F16/903;G06K9/62 |
| 代理公司: | 北京方圓嘉禾知識產權代理有限公司 11385 | 代理人: | 馮靜 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 完備 數據 快速 屬性 方法 | ||
本發明涉及一種不完備數據集快速屬性約簡方法,本發明能夠利用已有的乳腺癌患者相關數據信息,來對其他未經過醫學檢查的人群進行數據分析,從而判斷哪些人為乳腺癌的潛在高風險人群。本發明采用了IFSPA算法和IFSPA?IVPR算法,使本發明針對不完備數據集在保持其原有特征屬性分辨能力的情況下,能夠更高效的完成屬性約簡。本發明在時間復雜度、穩定性等方面均優于現有算法。同時使用該方法處理大規模數據集時的改進效果也十分明顯。
本申請是名為《一種不完備數據集快速屬性約簡方法》的專利申請的分案申請,原申請的申請日為2018年12月21日,申請號為201811574927.0。
技術領域
本發明涉及醫學技術領域,特別是涉及一種不完備數據集快速屬性約簡方法。
背景技術
乳腺癌是乳腺上皮細胞在多種致癌因子的作用下,發生增殖失控的現象。其與宮頸癌并稱為女性兩大“隱性殺手”。據2018年國際癌癥研究機構(International Agencyfor Research on Cancer,IARC)調查的最新數據顯示,乳腺癌在全球女性癌癥中的發病率為24.2%,位居女性癌癥的首位,其中52.9%的病例發生在發展中國家。多數乳腺癌患者早期癥狀不明顯,很容易被忽視而沒有及時就醫。且乳腺癌需要經過影像學檢查、組織活檢、腫瘤標志物檢查等專業醫學檢查方能確診。目前也沒有一種很好的方法來對潛在的乳腺癌患者進行及時發現和提前預測。
因此,如何設計一種不完備數據集快速屬性約簡方法來利用已有的乳腺癌患者相關數據信息,來對其他未經過醫學檢查的人群進行大數據分析,從而判斷哪些人為乳腺癌的潛在高風險人群,成為本領域亟需解決的技術問題。
特征選擇,或者我們稱之為屬性約簡的數據處理方法是模式識別、數據挖掘以及機器學習等領域的一個共同的重要研究課題。近些年來,數據集中的元素的數量與維度都有了明顯的增長。例如,數量達到上百甚至上千的條件屬性存儲于許多現實應用中的數據庫當中。眾所周知,與識別或者分類任務無關的很多條件屬性會明顯降低相關算法的性能。換而言之,存儲和處理所有的條件屬性,包括相關的重要的以及不相關的不重要的屬性會帶來巨大的空間存儲成本與計算時間成本。為了解決這一問題,一些學者提出的方案是刪除那些不影響識別或者分類精度的條件屬性。因此,刪除部分條件屬性不僅是容許的,對于相關降低計算時間復雜度而言甚至是十分必要的。
在眾多的屬性約簡方法中,主要有兩種相關的策略,即包裝與過濾。前者使用一個學習算法對條件屬性子集進行評價和選擇,后者則根據一些重要性度量,如信息增益、一致性、距離、依賴性等量測量對條件屬性進行選擇。這些量測量可以分成兩個主要類別,即基于距離的度量與基于一致性的度量。粗糙集理論中的屬性約簡方法為基于一致性的屬性約簡方法提供了系統的理論框架,其目的并非是要將類的可分性最大化,而是試圖保證所選擇的條件屬性子集與原始的條件屬性全集具有相同的可分辨能力。
總的來說,我們通常會碰到兩類數據,即數值型數據和符號型數據。其中,對數值型數據而言,有兩種方法。一種是使用模糊粗糙集理論,另一種則是對數值型的條件屬性值進行離散化處理。為了處理混合型的條件屬性值,相關學者也提出過很多方法。在經典粗糙集理論中,屬性約簡算法將所有的屬性值作為符號型數據予以考慮。在對原始數據進行過數據預處理過之后,我們可以使用經典粗糙集理論選擇出條件屬性中最適合于識別或者分類任務的子集。
基于粗糙集理論的屬性約簡開始于一個數據表,我們也稱之為信息系統。它包含了關于我們感興趣的對象的所有數據,這些數據由一個有限的條件屬性集來描述。根據其是否存在缺失數據或者空數據,信息系統可以分為完備信息系統和不完備信息系統。一般來說,我們提到不完備信息系統,也就意味著該系統中間存在缺失數據或者空數據。對一個不完備信息系統而言,如果條件屬性與決策屬性彼此之間相互區分,則我們稱之為不完備決策系統或者不完備決策表。對不完備數據進行屬性約簡通常開始于不完備決策表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110722842.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





