[發明專利]基于病歷的癌癥分型分期方法及其裝置在審
| 申請號: | 201811237480.8 | 申請日: | 2018-10-23 |
| 公開(公告)號: | CN111091914A | 公開(公告)日: | 2020-05-01 |
| 發明(設計)人: | 李雅楠;王朋;潘劍飛 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06F16/332;G06F16/36 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 病歷 癌癥 分期 方法 及其 裝置 | ||
1.一種基于病歷的癌癥分型分期方法,其特征在于,包括以下步驟:
對病人的原始病歷進行數據清洗分類,獲取多個類型的病歷數據;
根據分型分期指標從所述多個類型的病歷數據中獲取相關的目標病歷數據;
根據預設的與所述分型分期指標對應的參考數據從所述目標病歷數據中獲取分型分期特征數據;
根據與所述分型分期指標對應的預設規則,確定與所述分型分期特征數據對應的分型分期結果。
2.如權利要求1所述的方法,其特征在于,所述根據預設的與所述分型分期指標對應的參考數據從所述目標病歷數據中獲取分型分期特征數據,包括:
獲取預設的與所述分型分期指標對應的病理特征詞表;
將所述病理特征詞表與所述目標病歷數據進行匹配,從所述目標病歷數據中獲取匹配成功的數據作為所述分型分期特征數據。
3.如權利要求1所述的方法,其特征在于,所述根據預設的與所述分型分期指標對應的參考數據從所述目標病歷數據中獲取分型分期特征數據,包括:
對所述目標病歷數據進行文本分割,獲取分割后的多個候選短句片段;
獲取預設的與所述分型分期指標對應的病理特征短句模板;
將所述病理特征短句模板與每個候選短句片段進行匹配,獲取匹配結果滿足預設條件的候選短句片段作為所述分型分期特征數據。
4.如權利要求3所述的方法,其特征在于,所述將所述病理特征短句模板與每個候選短句片段進行匹配,獲取匹配結果滿足預設條件的候選短句片段作為所述分型分期特征數據,包括:
按照預設算法將每個候選短句片段與所述病理特征短句模板進行相似度計算,獲取每個候選短句片段與所述病理特征短句模板之間的相似度;
按照預設算法計算每個候選短句片段在所述目標病歷數據中的語義重要度;
根據所述每個候選短句片段與所述病理特征短句模板之間的相似度,以及在所述目標病歷數據中的語義重要度,獲取每個候選短句片段的候選特征值;
將每個候選短句片段的候選特征值與預設閾值進行比較,獲取大于所述預設閾值的候選特征值對應的候選短句片段作為所述分型分期特征數據。
5.如權利要求4所述的方法,其特征在于,所述按照預設算法計算每個候選短句片段在所述目標病歷數據中的語義重要度,包括:
將所述每個候選短句片段切分為n個候選分詞w1,w2...,wn,獲取每個候選分詞在所屬候選短句片段中的出現頻次f1,f2...,fn,以及所有候選短句片段中出現所述候選分詞的候選短句片段s1,s2...,sn,其中,所述n為大于1的正整數;
根據如下公式計算所述每個候選短句片段在所述目標病歷數據中的語義重要度:
其中,所述tf-idf(B)為所述語義重要程度,所述m為所有候選短句片段的總數,所述B為所述每個候選短句片段。
6.如權利要求4所述的方法,其特征在于,在所述按照預設算法計算每個候選短句片段在所述目標病歷數據中的語義重要度之前,還包括:
將所述每個候選短句片段與預設無用詞表匹配,獲取匹配成功的目標無用詞;
將所述每個候選短句片段中的所述目標無用詞過濾。
7.如權利要求6所述的方法,其特征在于,還包括:
根據所述每個候選短句片段中與所述病理特征短句模板的相似度確定無關的分詞,根據無關的分詞更新所述預設無用詞表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811237480.8/1.html,轉載請聲明來源鉆瓜專利網。





