[發明專利]基于孤立森林算法和投票機制的唐氏綜合癥篩查方法有效
| 申請號: | 201810592920.5 | 申請日: | 2018-06-11 |
| 公開(公告)號: | CN108877949B | 公開(公告)日: | 2021-04-27 |
| 發明(設計)人: | 張紅國;王瑞雪;李玲;劉婉瑩;劉睿智;楊瀟;黃玉蘭;張海蓉;姜雨婷;李磊磊;劉丹;楊秀華 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06K9/62 |
| 代理公司: | 長春吉大專利代理有限責任公司 22201 | 代理人: | 王淑秋 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 孤立 森林 算法 投票 機制 綜合癥 方法 | ||
本發明涉及一種基于孤立森林算法和投票機制的唐氏綜合癥篩查方法,該方法包括下述步驟:數據預處理:將多條樣本加入數據集;劃分數據集,得到A訓練集和B訓練集,進一步交叉劃分A訓練集,得到多個訓練子集:訓練得到多個孤立森林模型及其對應的異常度得分閾值;對B訓練集中的樣本投票得到每個樣本的所得票數:獲得預判決閾值以及B訓練集中的每條樣本的預判決結果;使用訓練支持向量機SVM模型進行最終判決。本發明能夠提高異常的檢出率,降低誤診率。
技術領域
本發明涉及一種基于數據挖掘技術的唐氏綜合癥的篩查方法,更具體地說,本發明涉及一種基于孤立森林算法、投票機制和支持向量機SVM模型的唐氏綜合癥篩查方法。
背景技術
唐氏綜合征又稱先天愚型或21三體綜合征,臨床表現為嚴重的智力障礙,該病為21號染色體異常所導致。目前,臨床中對治療21三體綜合征尚缺乏特效方法,我國目前主要采用檢測孕婦血清中β-hCG、AFP、uE3水平,并結合孕婦臨床資料進行風險值評估,再對高風險產婦進行侵入性診斷,并選擇性流產來進行預防。
相關文獻研究表明,目前我國產前篩查方案、正常值范圍以及計算軟件大多是基于國外統計數據,由于中國沒有自己的產前篩查軟件,大部分醫院采用歐美設備,這些產前篩查風險評估軟件不是針對黃種人的數據進行設定,所以應用到國內會出現準確率降低的問題。據統計唐氏綜合征篩查的準確率僅為60%-75%,但實際在中國唐氏篩查準確率更低。而以絨毛膜穿刺或羊水穿刺進行診斷檢查的方式始終存在一定侵入性,且造成孕婦流產風險較高,使用受到極大限制。
近年來,隨著我國醫療信息系統的完善,各數據端口呈現出多樣化且快速增長的發展趨勢。為了有效利用醫療數據中存在的關系和規則,數據挖掘技術被應用到醫療衛生領域,在疾病的預防、診斷與治療過程中發揮著重要的作用。
產前篩查數據是醫療數據中一類比較特殊的數據,具有嚴重的非均衡性。相關文獻表明唐氏綜合癥的發病率為1/800-1/600,而醫院的數據記錄中唐氏兒的比例更小。與均衡數據分類問題相比,非均衡情況要困難和復雜的多。傳統的機器學習方法針對均衡數據有較好的分類性能,往往偏重多數類,忽略少數類,而對非均衡數據分類效果并不好,難以應用于早、中孕期唐氏綜合癥的篩查。
孤立森林是一種適用于非均衡數據集的異常檢測算法,這個算法本質上是一個無監督學習,不需要數據的類標,當異常數據量太少,只用正常樣本構建孤立森林也是可行的,能有效處理高維數據和海量數據。目前,該算法多用于工業界,沒有應用于產前診斷上的系統的改良的方法。
發明內容
本發明要解決的技術問題是提供一種基于孤立森林算法和投票機制的唐氏綜合癥篩查方法,該方法能夠提高唐氏兒在中孕期的檢出率,降低誤診率。
技術詞語解釋:
特征:孕婦中孕期唐氏篩查結果數據中的字段,即產檢指標;
特征值:產檢指標測試值:
樣本:每個孕婦中孕期唐氏篩查結果稱為一條樣本,每條樣本包含ns個特征值u1,u2,…ui,…,uns;
數據集:由多條樣本組成的數據集;
為了解決上述技術問題,本發明的基于孤立森林算法和投票機制的唐氏綜合癥篩查方法包括下述步驟:
步驟一:數據預處理:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810592920.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多模態數據處理方法及系統
- 下一篇:一種基于計算機的骨質疏松篩查方法和裝置





