[發(fā)明專利]基于孤立森林算法和投票機制的唐氏綜合癥篩查方法有效
| 申請?zhí)枺?/td> | 201810592920.5 | 申請日: | 2018-06-11 |
| 公開(公告)號: | CN108877949B | 公開(公告)日: | 2021-04-27 |
| 發(fā)明(設計)人: | 張紅國;王瑞雪;李玲;劉婉瑩;劉睿智;楊瀟;黃玉蘭;張海蓉;姜雨婷;李磊磊;劉丹;楊秀華 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06K9/62 |
| 代理公司: | 長春吉大專利代理有限責任公司 22201 | 代理人: | 王淑秋 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 孤立 森林 算法 投票 機制 綜合癥 方法 | ||
1.一種基于孤立森林算法和投票機制的唐氏綜合癥篩查方法,其特征在于包括下述步驟:
步驟一:數(shù)據(jù)預處理:
將每個孕婦中孕期唐氏篩查結果作為一條樣本,每條樣本包含ns個特征值u1,u2,…ui,…,uns,樣本的特征向量為u(u1,u2,…ui,…,uns),5≤ns≤10;將Z條樣本加入數(shù)據(jù)集P=(p1,p2,…pi…pZ),Z≥5000;
步驟二:劃分數(shù)據(jù)集,得到A訓練集Ptrain1和B訓練集Ptrain2:
首先:初步將數(shù)據(jù)集P劃分成A訓練集Ptrain1、B訓練集Ptrain2,A訓練集Ptrain1只含有陰性樣本,B訓練集Ptrain2既含有陰性樣本又含有陽性樣本;
然后:進一步交叉劃分A訓練集Ptrain1,得到多個訓練子集1≤i≤M;100≤M≤1000;
步驟三:訓練多個孤立森林模型:
使用任一訓練子集訓練孤立森林模型fi,共得到M個孤立森林的模型集合F=(f1,f2...fi...fM),孤立森林模型fi是由T棵孤立樹組成的,即fi={t1,...,tT}i,對于訓練子集中的一個樣本遍歷孤立森林中的每一棵孤立樹,將樣本最終落在第t棵孤立樹的層數(shù)記為然后根據(jù)公式(1)得出樣本在T棵孤立樹的高度平均值n是中樣本數(shù)量;
定義異常得分為
其中,中間變量c(ψ)的計算方法如下:
公式(3)中,ψ是隨機分配給每棵孤立樹根節(jié)點的樣本數(shù),其中,H(ψ-1)的計算方法如下:
H(ψ-1)=ln(ψ-1)+0.5772156649 (4)
再根據(jù)自行設定的污染度參數(shù)Cw確定孤立森林fi的異常得分閾值確定異常得分閾值的方法如下:
對于樣本有:
其中,為待定異常得分閾值;
調整待定異常得分閾值的大小,求得滿足的最大的待定異常得分閾值即為所求異常得分閾值
對于所有的得到M個孤立森林模型集合F=(f1,f2...fi...fM)以及異常度得分閾值集合
步驟四:對B訓練集Ptrain2中的樣本投票:
將B訓練集Ptrain2中的每一條樣本都帶入到步驟三中得到的孤立森林模型集合中的每片孤立森林中,并最終被劃分到各孤立樹的一個葉子節(jié)點,針對B訓練集Ptrain2中的第k條樣本p2_k,設將其帶入孤立森林fi的第t棵孤立樹,最終所落葉子節(jié)點的層數(shù)為根據(jù)式(1-1)計算該葉子節(jié)點在T棵孤立樹的高度平均值m是B訓練集Ptrain2中的樣本數(shù)量;然后再根據(jù)(2-1)計算該條樣本p2_k在孤立森林fi中的異常得分:
當時即判作該條樣本p2_k異常,此時孤立森林fi給該條樣本p2_k投一票,否則不投票;將孤立森林fi對該條樣本p2_k的投票結果記為
按照同樣方法,得到孤立森林模型集合F中的其他孤立森林對該條樣本p2_k的投票結果;
B訓練集Ptrain2中第k條樣本p2_k所得票數(shù)定義為
同理,獲得B訓練集Ptrain2中的所有樣本的所得票數(shù);
步驟五:獲得預判決閾值Thvote以及Ptrain2中的每條樣本的預判決結果:
(1)獲得預判決閾值Thvote:將B訓練集Ptrain2中真陽性樣本所得票數(shù)的最小值作為預判決閾值,記為Thvote;
其中,代表Ptrain2中真陽性樣本集合Strains中第a條樣本所得票數(shù);N為真陽性樣本集合Strains中樣本的數(shù)目;
(2)根據(jù)預判決閾值Thvote和Ptrain2中樣本的得票情況對B訓練集Ptrain2中的樣本進行預判決:如果Ptrain2中第k條樣本所得票數(shù)大于等于Thvote,則判為陽性,否則判為陰性;
步驟六:訓練支持向量機SVM模型:
使用B訓練集Ptrain2中預判決結果為陽性的樣本訓練支持向量機SVM,訓練方法如下:
(1)將B訓練集Ptrain2中預判決結果為陽性的樣本集合另記為X=(x1,x2,…xi...,xNs),對應的標簽記為Y=(y1,y2,…yi...,yNs),Ns的值是步驟五中的預判決為陽性的樣本的數(shù)量;
(2)采用linear核的SVM核函數(shù),得出適用于唐氏綜合征篩查的SVM預測模型,SVM預測模型如下:
式中:
w為分類超平面的法向量;
Cc為懲罰因子,取1;
ξi為松弛變量,取值范圍[0,1];
xi為B訓練集Ptrain2中預判決結果為陽性的樣本集合X中的第i個樣本(u1,u2,…uns)i;
yi為第i個樣本xi的診斷結果;
bi為分類超平面偏置項;
s.t.代表約束條件;
通過公式(9)和公式(10)進行優(yōu)化得到分類超平面的法向量w和分類超平面偏置項b,從而得到分類超平面方程:
步驟七:判決:
(1)預判決:使用步驟三中得到的多個孤立森林fi對測試樣本投票,孤立森林fi向測試樣本Ptestk投票的結果記為
根據(jù)投票結果統(tǒng)計測試樣本Ptestk所得總票數(shù)當測試樣本Ptestk所得總票數(shù)大于或等于步驟五中得到的判決閾值Thvote時,預判決結果為陽性,否則,預判決結果為陰性,其中:
(2)最終判決:針對預判決結果為陰性的測試樣本,將預判決結果作為最終判決結果;針對預判決結果為陽性的測試樣本,使用步驟六中得到的支持向量機SVM進行最終判決,方法如下:
將預判決結果為陽性的測試樣本的特征向量(u1,u2,…uns)ci作為xi帶入分類超平面方程判斷結果記錄為變量pi;若則判斷該測試樣本為患病,即pi=1,若則判斷該測試樣本未患病,即pi=0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經(jīng)吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810592920.5/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





