[發明專利]一種大數據醫療數據特征提取和智能分析預測方法在審
| 申請號: | 201811570429.9 | 申請日: | 2018-12-21 |
| 公開(公告)號: | CN109686441A | 公開(公告)日: | 2019-04-26 |
| 發明(設計)人: | 王衎清;張倬勝 | 申請(專利權)人: | 質直(上海)教育科技有限公司 |
| 主分類號: | G16H50/20 | 分類號: | G16H50/20;G16H50/70 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 200120 上海市徐*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 醫療數據 大數據 自然語言處理技術 特征提取 智能分析 預測 神經網絡模型 結構化處理 關鍵信息 數據清洗 特征挖掘 文本轉化 醫療信息 自由文本 挖掘 向量化 治愈率 萃取 病歷 診療 驗證 幫助 保存 記錄 醫生 分析 學習 | ||
1.一種大數據醫療病情診斷和治愈率預測方法,其特征在于,包括:
步驟1,采集病歷數據,并針對數據進行清洗,具體是進行電子化、格式化、歸一化病歷數據,去除無效、無關的數據,作為系統輸入;
步驟2,將輸入病歷數據進行向量化,具體是將中文病歷進行分詞,作為系統輸入的基本單元;
步驟3,挖掘步驟2輸出的病歷數據,并進行信息提取,具體是將病歷數據都表示成向量之后,通過神經網絡提取其中的內在特征和病理,
步驟4,獲取病情診斷和治愈率預測結果;
步驟5,參數調優與更新,機器學習模塊通過訓練使預測值擬合于真實治愈率,計算預測值和真實值之間的誤差(損失函數),更新系統參數,不斷降低損失,使結果不斷趨向準確。
2.根據權利要求1所述的一種大數據醫療病情診斷和治愈率預測方法,其特征在于,步驟1的具體方法包括:對于不同量綱的數值統一量綱單位;使用歸一化方法統一數值型數據的分布區間,方法為:
歸一化后的數值=(原數值-最小值)/(最大值-最小值)。
3.根據權利要求1所述的一種大數據醫療病情診斷和治愈率預測方法,其特征在于,步驟2中進行向量化的具體步驟是:
步驟一,建立詞語表,具體是遍歷全部數據,得到全部的詞語集合;
步驟二,將每個詞語轉換成向量,具體是:假設整個病歷集的不重復的詞語數為K,使用自然語言處理中的詞嵌入方法將該K個元素各自映射至特定維度N的向量空間中,得到K×N的映射空間,此時詞表元素表示為(K,N)維度的向量;例如可以通過詞嵌入的方式將“醫療”表示為100維的向量[0.618 0.24911-0.42242 0.1217 0.34527-0.034457…]。
4.根據權利要求1所述的一種大數據醫療病情診斷和治愈率預測方法,其特征在于,步驟3采用神經網絡提取數據中的內在特征和病理,具體方法是:設置向量化后的文本數據為輸入,通過神經網絡(如卷積神經網絡)為的神經元自動計算向量空間中的特征表示,輸出為神經元學習后的特征向量。
5.根據權利要求1所述的一種大數據醫療病情診斷和治愈率預測方法,其特征在于,步驟4中,病情診斷的具體方法包括:
病情診斷可視為機器學習中的多種診斷目標分類任務,具體為將特征向量通過轉換為每種可能病例類型的概率,方法為:
其中aj是神經網絡輸出的特征向量,j表示類別索引,總的類型數量是T,Sj表示當前元素的指數與所有元素指數和的比值。
6.根據權利要求1所述的一種大數據醫療病情診斷和治愈率預測方法,其特征在于,步驟4中,治愈率預測的具體方法包括:
愈率預測設定為回歸任務,治愈率預測步驟中,將特征向量轉換為0-1的治愈率區間;具體為:在得到h之后可以通過一個sigmoid函數(不僅限該種函數);
其中a是神經網絡輸出的特征向量,y為治愈率預測結果。
7.根據權利要求1所述的一種大數據醫療病情診斷和治愈率預測方法,其特征在于,步驟5中,損失函數使用回歸擬合計算預測概率和真實值之間的差距;
對于病情診斷使用交叉熵;
對于治愈率采用均方誤差:
其中在上述兩個公式中,yt為目標類別,預測類別,N表示輸入數據的個數,t表示當前的數據序號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于質直(上海)教育科技有限公司,未經質直(上海)教育科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811570429.9/1.html,轉載請聲明來源鉆瓜專利網。





