[發明專利]一種深肌層浸潤數據預測方法及系統在審

申請號：	202110487110.5	申請日：	2021-05-04
公開（公告）號：	CN113178264A	公開（公告）日：	2021-07-27
發明（設計）人：	林鳳;易新凱;唐震洲;周銘琰;黎瑋	申請（專利權）人：	溫州醫科大學附屬第一醫院
主分類號：	G16H50/70	分類號：	G16H50/70
代理公司：	溫州名創知識產權代理有限公司 33258	代理人：	陳加利
地址：	325000 ***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種深肌層浸潤數據預測方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種深肌層浸潤數據預測方法，其特征在于，包括以下步驟：

步驟S1、獲取深肌層浸潤數據集和深肌層非浸潤數據集來形成樣本數據，并將所獲取的樣本數據進行缺失值處理之后作為原始樣本數據；

步驟S2、取出所述原始樣本數據的特征值和預測值，并選擇預設的Borderline-Smote模型，對所述原始樣本數據進行不平衡數據處理；

步驟S3、將不平衡數據處理得到的樣本數據與所述原始樣本數據進行混合，得到一個新樣本數據集并進行歸一化處理，且進一步將歸一化處理的新樣本數據劃分成測試集和多個訓練集；

步驟S4、選取隨機森林的決策樹為CART類型，并分別訓練每一個劃分好的訓練集，得到每一個訓練集相對應的CART決策樹模型；

步驟S5、利用特征的重要性，對每一個CART決策樹模型中的所有特征均進行評估，得到每一個CART決策樹模型中滿足預定條件的特征集；

步驟S6、通過基尼指數的對比選出最優特征來對所有的CART決策樹模型中滿足所述預設條件的特征集進行分支處理，得到所有CART決策樹模型經過分支處理后的決策樹，并形成隨機森林；其中，將選出的最優特征按照基尼指數從大到小的順序進行剪枝排序，且所選的最優特征均是深肌層浸潤數據區別于深肌層非浸潤數據的關鍵特征；

步驟S7、獲取待測試數據集，將所述待測試數據集導入到訓練好的隨機森林模型中，區別出所述待測試數據集為深肌層浸潤數據集或深肌層非浸潤數據集。

2.如權利要求1所述的深肌層浸潤數據預測方法，其特征在于，在所述步驟S2中，所述選擇預設的Borderline-Smote模型，對所述原始樣本數據進行不平衡數據處理的具體步驟包括：

第一步、獲取整個數據集，記為訓練集T；其中，深肌層浸潤數據集記為P，深肌層非浸潤數據集記為N；其中，P＝{p₁，p₂，...p_pnum}，N＝{n₁，n₂，...,n_nnum}；pnum和nnum分別是深肌層浸潤數據集和深肌層非浸潤數據集各自對應的數量；

第二步、對于深肌層浸潤數據集P中的每一個樣本p_i(i＝1,2,...,pnum)，計算出整個訓練集T中它的m個近鄰；其中，m個近鄰中深肌層非浸潤數據集N的個數用m′(0≤m′≤m)表示；

第三步、如果m′＝m，則樣本p_i被認為是噪聲；如果0≤m′≤m/2，則樣本p_i被認為是安全數據集T_safe；如果m/2≤m′≤m，則樣本p_i被認為是錯誤類別樣本，并把樣本p_i放到危險數據集T_danger中；

第四步、設置危險數據集T_danger且并對危險數據集T_danger中的每個實例樣本p′_i，均計算出對應深肌層浸潤數據集P中的k個近鄰；其中，T_danger＝{p′₁,p′₂,...,p′_dnum}，且0≤dnum≤pnum；

第五步、對于每個實例樣本p′_i，均隨機從深肌層浸潤數據集P中對應計算的k個近鄰中選出s個，并計算出每個實例樣本p′_i和對應選出的s個近鄰的距離dif_j(j＝1,2...,s)，進一步用dif_j乘于一個介于0～1之間的隨機數r_j，產生一個新的少數例樣本synthetic_j；其中，synthetic_j的計算公式為synthetic_j＝p′_i+r_j×dif_j(j＝1,2,...s)；

第六步，重復執行第四步和第五步；其中，對于每個實例樣本p′_i，均得到s×dnum個新的少數例樣本synthetic。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于溫州醫科大學附屬第一醫院，未經溫州醫科大學附屬第一醫院許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110487110.5/1.html，轉載請聲明來源鉆瓜專利網。