[發明專利]一種基于遷移學習的醫學數據處理和系統有效
| 申請號: | 201810186122.2 | 申請日: | 2018-03-07 |
| 公開(公告)號: | CN108520780B | 公開(公告)日: | 2021-08-06 |
| 發明(設計)人: | 陳旭;胡滿滿;商顯震;孫毓忠 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06F16/35;G06F40/30 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 遷移 學習 醫學 數據處理 系統 | ||
本發明公開了一種基于遷移學習的醫學數據處理和系統,包括:獲取醫學領域外的本文數據,訓練得到文本分類模型;獲取醫學領域內的病例集合,其中病例集合包含癥狀和標簽,標簽為癥狀對應的病癥;使用文本分類模型提取癥狀的特征向量作為癥狀向量,并根據癥狀對應的病癥類型,將標簽轉化為標簽向量;通過集合癥狀向量及其對應的標簽向量,構建多標簽訓練樣本集,根據多標簽訓練樣本集,訓練得到多標簽分類模型;將待分析的醫學樣本輸入至多標簽分類模型,判斷醫學樣本屬于每一種標簽的概率值,并根據概率值得到分析標簽集合,作為醫學樣本的分析結果。由此本發明通過遷移學習避免了人工選擇特征的缺點,提高了基于門診病例的醫學疾病預測準確率。
技術領域
本發明涉及醫學疾病分析及機器學習領域,特別涉及一種基于遷移學習的醫學數據處理和系統。
背景技術
隨著人工智能和機器學習的不斷發展和廣泛應用,臨床輔助決策支持系統被提出用于,根據患者信息,依靠機器學習分析模型對病情進行預測分析,可以幫助醫生在臨床分析決策過程中更高效、更快捷地運用復雜醫學知識處理各種醫學問題。
醫學疾病預測模型是智能輔助分析系統的核心挑戰之一,可分為基于規則的專家模型、基于統計知識的統計分析模型和基于機器學習的預測模型。
論文(Shortliffe E.H.Computer-based medical consultations:MYCIN.Elsevier.1976,85(6):iii.)提出了基于規則的輔助醫療分析系統MYCIN,總結了400多種體現專家分析疾病的規則,用于鑒別細菌感染并提供治療方案,雖然具有一定的效果,但是基于規則的專家模型需要大量的專家構建規則庫,維護成本高且拓展性不好。
IBM Watson醫療輔助分析系統通過對醫學文獻進行統計分析以幫助醫生進行決策,統計學習知識被運用到醫學數據處理中,從而解決專家系統存在的問題。但是基于統計知識的統計分析模型依賴大量的數據支持,導致模型在某些數據量小的疾病上效果不理想。
基于機器學習的預測模型將疾病分析看作是分類預測問題,提高了醫學疾病分析模型的準確度,另一方面,基于大量樣本的深度神經網絡(Deep Neural Networks,DNN)的提出更加提高了某些疾病的預測準確率。然而,一些醫學疾病具有樣本數量少的特點,即疾病的病例數量相對很少,或者收集非常困難,以至于很難訓練出理想的機器學習模型。
某些醫學疾病具有收集困難和發病率小的問題,導致很難有大量的樣本用于深度神經網絡訓練,從而很難訓練得到本領域內具有很強分析性能的模型。近些年,深度卷積神經網絡模型(Deep Convolutional Neural Network,DCNN)在圖像分類、人臉識別取得了十分高的精確度,其中一個重要的手段就是遷移學習,目的是將在源領域數據集上訓練的模型運用到新的目標領域中,從而提高目標領域任務的準確度。遷移學習通過將源領域訓練過程中產生的知識(模型,參數等)保存下來,從而將源領域知識運用到目標領域任務中。
發明內容
本發明針對目前醫學疾病分析模型存在的樣本不足特點,設計了一種基于遷移學習的醫學數據處理和系統,包括構建基于遷移學習的醫學疾病分析模型,首先在大規模源數據集上訓練具有多標簽的文本分類模型,將模型作為特征提取器用于醫學病例的文本語義特征提取,從而構建具有源領域語義特征的訓練集,進而根據訓練集訓練多標簽分類器,實現目標領域的醫學疾病分析預測。
具體地說,本發明公開了一種基于遷移學習的醫學數據處理,其中包括:
步驟1、獲取醫學領域外的本文數據,根據該本文數據,訓練得到文本分類模型;
步驟2、獲取醫學領域內的病例集合,其中該病例集合包含癥狀和標簽,該標簽為該癥狀對應的病癥;
步驟3、使用該文本分類模型提取該癥狀的特征向量作為癥狀向量,并根據該癥狀對應的病癥類型,將該標簽轉化為標簽向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810186122.2/2.html,轉載請聲明來源鉆瓜專利網。





