[發明專利]基于PCA和PSO-KELM模型的乳腺癌診斷系統有效
| 申請號: | 201710878027.4 | 申請日: | 2017-09-26 |
| 公開(公告)號: | CN107767946B | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 潘娟;鮑東海;丁佳駿;何熊熊 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G16H50/20 | 分類號: | G16H50/20;G01N15/10;G01N21/84 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵;黃美娟 |
| 地址: | 310014 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 pca pso kelm 模型 乳腺癌 診斷 系統 | ||
1.基于PCA和PSO-KELM模型的乳腺癌診斷系統,其特征在于:對乳腺癌疾病的病理指標進行分析,應用乳腺癌診斷模型分析、預測乳腺癌各項數據指標,建立樣本數據庫,對乳腺癌患者良、惡性的診斷結果進行分類、預測并提出具有科學性、針對性及有效性的防療措施;其中乳腺癌診斷模型是對良性患者、惡性患者的病理數據進行預處理之后,提取高維的乳腺癌病理數據中占主導作用的低維綜合指標,把低維綜合指標作為該模型的輸入向量進行試驗,利用粒子群方法對乳腺癌診斷模型中的參數進行優化,最后得到穩定的系統參數,加快該乳腺癌診斷模型的收斂速度及分類的準確率;采用計算機程序語言編寫的乳腺癌診斷模型包括基于數據主元分析模塊、基于人工神經網絡評價分析模塊、基于粒子群優化參數分析模塊;
病理數據采集:選取具有豐富臨床經驗的醫生對乳腺腫塊通過病理學細針穿刺方法獲得細胞組織;然后醫生將具有細胞組織的載玻片放在選取來自不同視野的顯微鏡下進行檢測、觀察乳腺腫瘤病灶組織中細胞核所顯示的檢測參數,包括細胞核的直徑、質地、周長、面積、光滑度、緊密度、凹陷度、凹陷點數、對稱度、斷裂度10個量化特征的平均值、標準差以及最壞值,共30個數據指標;
利用乳腺癌診斷模型進行病理數據預測分析,根據病理數據的自身特性選擇合適的預測模型;
基于數據主元分析模塊,其數據表達式如下:
對式(1)樣本數據矩陣進行主成分分析,根據協方差矩陣X求出其相應的特征值,根據每個特征值對應的累積貢獻率所占比例的大小優選出主要特征指標,如下公式所示:
其中,用σi和ηa分別表示主元的方差貢獻率和前a個主元的累計貢獻率,λ表示特征值,m表示取前幾個主要特征指標的個數;一般情況下,取前m個累積貢獻率大于85%的主成分綜合指標個數,從而達到了降低維度的目的,前m個主成分指標能夠完全反映原始乳腺癌病理數據的大量信息,這些主成分就是原始信息的線性組合;其表達式如下所示:
公式(3)中,y=[y1,y2,...,y10]表示經過主元分析模型處理后的低維醫療病理數據,由原先30維的乳腺癌病理數據指標降維變成了10個毫不相關的主成分指標,這些指標之間是互不重疊的;通過計算將原始數據和相應的系數矩陣做內積,得到降維后的矩陣Y所示:Y569*10=X569*30*a30*10;
基于人工神經網絡評價分析模塊:
經過基于數據主元分析模塊降維后,將10個主成分的綜合指標作為極限學習機模型的輸入樣本,將輸入樣本和輸入權重的內積再加上閾值通過非線性的激活函數模型來映射,得到一個隱含層的輸出響應,將當前隱含層的輸出響應作為輸出層的輸入樣本與權重進行內積,得到最終的分類函數模型;為了獲得一個ELM網絡的最佳模型,ELM在輸出過程中不但要考慮到連接隱含層與輸出層之間的權值最小化,而且還要保證網絡模型的實際輸出值和目標輸出值之間的誤差達到最小,即保證模型的輸出權重最小化及輸出誤差最小化,當兩個最小化參數其中一個沒有達到最小化的標準,那么所得到的模型可能會產生過擬合狀態及其他不良狀態;因此,要保證模型中這兩個最小化參數之間的比例,使他們達到一定的動態平衡,一個良好的ELM模型輸出層分類目標函數為:
Subject to:h(xp)β=tpT-ξpT (5)
P=1,2,…N表示樣本的個數,tp表示為網絡的實際輸出值,其中代表輸出層輸出的最小權重,即結構風險最小;代表輸出誤差最小,即經驗風險最小,C表示為正規化系數,因為結構風險和經驗風險這兩個指標之間是相互矛盾的,用正規化系數C來調節這兩個指標之間的比例關系;該模型中輸出層中的實際輸出向量和目標向量之間存在著一定誤差,訓練誤差用||ξp||來表示;
通過ELM訓練模型所得出的線性系統輸出值的解與如下對偶問題是等價的,如下所示這是根據卡羅需-庫恩-塔克(Karush-Khu-Tucker)的理論公式所得;
其中αp為非負數,稱之為拉格朗日乘子;根據Karush-Khu-Tucker的相應優化限制條件進行求解結果如下:
其中H=[hT(x1),…,hT(xN)]T就是隱含層輸出的映射矩陣,實際上矩陣H與輸出層中所含的節點的個數沒有關系,但是與輸入層和隱含層的樣本的節點個數關系密切;將公式(7)和(8)代入到公式(9),可得
將(10)中的公式進行合并整理:
令
將(10)中的公式合并如下:
將公式(11)帶入到公式(9)中,可以得到輸出權重β:
最后可以得出ELM的非線性逼近函數:
在ELM模型中,H是隱含層輸出矩陣,從公式(13)推導并發現H是由激活函數組成的輸出矩陣,由于ELM模型中權重和閾值的值在訓練前是隨機產生的,這樣就導致H矩陣中的值是不確定的,因此每次進行ELM建模時,輸出層輸出的權重值也是不確定的,導致整個模型的泛化能力差、隨機波動性大;為了進一步加強該模型的穩定性、泛化能力以及抗魯棒性,將ELM模型和支持向量機模型(SVM)的原理進行對比,根據Mercer’s的條件尋找一個滿足需求的核函數模型,并提議將核函數應用到ELM中,其核矩陣的公式如下所示,從而提出了一種新型的人工神經網絡—核極限學習機模型,簡稱KELM;
Ω=HHT:Ωi,j=h(xi).h(xj)=K(xi,xj) (14)
其中,Ω是一個N*N的對稱矩陣,K(xi,xj)為核函數;從公式(14)中的HHT矩陣,對該矩陣進行詳細推算并發現存在著矩陣的內積形式,就將上面的核函數來替換其內積形式,其公式如下,這樣不僅使計算復雜度降低了,而且只需知道核函數的形式就可以求出其輸出函數,無需知道隱含層中的映射函數h(xi)的具體形式;
如上面公式(15)所示,可以將函數h(x)的內積由核函數的隱式隱射來代替,即將HHT用滿足merce條件的核函數來替換,具體形式如下:
其中,
ΩELM是一個N*N的對稱矩陣,由此可得到KELM模型求解的輸出過程為:
基于上面公式中核函數可以有很多種選擇,經過多次實驗測試顯示,本次實驗選擇徑向基函數作為核函數,該函數具有泛化能力好,平滑性強等優勢;
綜上所述,將核函數模型的優勢與ELM模型相結合,用核矩陣ΩKELM代替ELM模型中的隨機矩陣HHT,利用核函數,將其低維輸入的樣本數據映射到高維的隱含層特征空間中,保證其能夠準確、有效地進行分類;基于公式(18)KELM模型逼近函數的最終輸出中可以發現只要正規化系數C確定,該函數中核函數K(xi,xj)的具體形式以及具體參數已知,與此同時,核函數對稱矩陣ΩKELM的映射值是不可變值,最后輸出層輸出的權重最終是一個穩定的確定值;與之前的ELM輸出模型相對比,KELM在重復構建模型時,所得的的值為確定值;也避免了ELM模型中隱含層中的權值和閾值的隨機設置造成模型的波動性大、不穩定的重大問題,大大增加了KELM模型的穩定性和泛化能力;
針對公式(18)中的正規化系數C,調節結構風險最小和經驗風險最小的比例值,C值的波動大小都會給結構風險和經驗風險的帶來一定的波動;g是核函數的一個核寬參數,主要是用來控制徑向基函數的徑向作用范圍,反映了函數的非線性映射本質;核寬g的取值的不同,會得到不同的核函數;所以參數C和g對KELM模型的性能影響挺大的;
基于粒子群優化參數分析模塊:
這里就采用粒子群算法對參數C和g尋找最佳的參數,建立了用粒子群算法優化KELM模型中參數的算法預測模型;具體包括:
粒子的位置和速度生成子模塊,在(C,g)的取值空間內隨機生成初始化的每個粒子p=(p1,p2,…pm)的位置xi(t)=[Ci(t)gi(t)]T和速度Vi(t)=[△Ci(t)△gi(t)]T;
迭代尋優子模塊,應用PSO算法對KELM模型進行參數的迭代尋優,最大迭代次數是80次,種群的數量規模是30,在5折交叉驗證意義下的平均誤差率作為適應度函數,用平均誤差率最為適應值來確定當前pi的個體最極值pibest(t)=(Cibest(t)gibest(t))T和群體極值gibest(t)=(Cibest(t)gibest(t))T;
根據下面的公式來更新種群中每個粒子pi的速度和位置;
vi(t+1)=w(t)vi(t)+c1r1(pibest(t)-xi(t))+c2r2(gibest(t)-xi(t)) (19)
xi(t+1)=xi(t)+vi(t+1) (20)
其中c1和c2為學習因子,r1和r2為均勻分布在(0,1)之間的隨機數字;
判斷子模塊,判斷是否達到最大的迭代次數或者適應度函數值小于終止誤差,如果滿足,就停止迭代得到最優的解,最佳的正規化系數C=131.5269,核函數寬度是g=1.5855,將所得到的最佳參數C、g對KELM模型進行學習和分類預測,找出最小的分類誤差率,優化過程結束;如果沒有滿足條件則優化過程繼續,轉到迭代尋優子模塊繼續進行迭代;將得到的最優參數通過KELM模型進行訓練,最后輸出對乳腺癌疾病診斷、分析的結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710878027.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于手環控制的服務管理系統
- 下一篇:放療計劃評估方法及裝置





