[發明專利]一種仿真文本病歷的生成方法及系統有效
| 申請號: | 201810600640.4 | 申請日: | 2018-06-12 |
| 公開(公告)號: | CN109003678B | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 張學工;關嘉麒;閭海榮 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G16H50/20;G16H10/60 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 董永輝;曹素云 |
| 地址: | 100084 北京市海淀區1*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 仿真 文本 病歷 生成 方法 系統 | ||
一種仿真文本病歷的生成方法及系統,采用原始病歷生成正樣本,生成器每次循環以上一次循環輸出的詞向量和疾病標簽向量為輸入,輸出新的詞向量,重復多次生成由多個詞向量組成的句子。每生成一個詞向量,以已生成詞向量序列為初始狀態,重復運行生成器采樣,生成多個句子,判別器對所有句子的獎勵值取平均值,作為該次的詞向量的獎勵值,根據得到的句子和詞向量的獎勵值更新生成器,如此反復直至收斂。收斂的生成器生成負樣本,與正樣本組成混合病歷數據集,以疾病標簽向量和詞向量序列為輸入,得到每一病歷來自真實病歷的概率,更新判別器,如此反復直至收斂。本發明避免涉及病人隱私,仿真文本病歷可輔助其它機器學習任務,方便對該疾病的研究。
技術領域
本發明涉及機器學習技術領域,具體地說,涉及一種仿真文本病歷的生成方法及系統。
背景技術
隨著時代的發展,信息化程度的不斷提高,電子病歷的使用越來越廣泛。與此同時,隨著近年來機器學習與深度學習的快速發展,人們開始嘗試用機器學習的方法解決醫療領域的問題,并取得了一些成效。然而,電子病歷數據的獲取與使用,一方面由于涉及病人隱私等問題,可能受到患者個人意愿和法律法規的層層限制,從而制約了基于大數據的機器學習等相關算法的使用;另一方面由于病歷數據本身具有較大的差異性,對于某類疾病可能會出現正負樣本(患病樣本與非患病樣本)不均衡的情況,影響機器學習相關算法的效果。針對以上問題,生成盡量還原真實病歷樣本分布的仿真病歷數據,是一種有效的解決方案,然而當前卻很少有技術嘗試解決這一問題。少量的病歷生成與文本生成的相關技術也存在以下問題:1.作用僅為輔助生成格式化病歷,使之符合標準格式需要,減輕醫生手寫排版的工作,并未涉及自動生成仿真病歷。2.可以根據已有文本進行合并,生成新文本,但并未涉及機器學習相關算法,生成文本多樣性也十分有限。3.相關基于人工智能的文本生成方法作用范圍有限(僅為文本擴展,而無法生成全文本),且應用范圍不明確,與醫療領域結合不緊密。
發明內容
為解決以上問題,本發明提供一種仿真文本病歷的生成方法及系統,包括以下步驟:
步驟S1,對原始病歷數據進行預處理,生成由真實病歷數據組成的正樣本,具體包括如下步驟:
步驟S11,獲取包括病情描述和診斷結果的真實病歷的文本;
步驟S12,對病情描述和診斷結果進行提取并分別編制適于計算機讀取的編碼;
步驟S14,生成所述正樣本,
步驟S2,訓練模型,具體包括以下步驟:
步驟S21,構建生成器與判別器,初始化參數;
步驟S23,對生成器與判別器進行對抗訓練,循環執行如下過程直至生成式對抗網絡收斂:
步驟S231,對生成器執行多次迭代,直至收斂,具體包括如下步驟:
步驟S2311,生成器執行T次循環,每次循環以上一次循環輸出的詞向量和疾病標簽向量為輸入,輸出新的詞向量,從而重復T次生成長度為T的句子X1:T,其中,
以已經生成的詞向量序列(x1,x2,…,xt-1)為初始狀態固定不變,重復運行生成器進行采樣,生成以X1:t-1為前綴的N個完整的句子,判別器對每個句子給出一個獎勵值,對N個句子的獎勵值取平均值,作為第t步所生成詞向量xt的獎勵值,
其中,詞向量從事先設定的包含病歷詞匯的詞典中選取,疾病標簽向量是與病情診斷結果對應的向量;
步驟S2312,根據得到的序列總長度為T的句子,和序列中每個詞向量獲得的來自于判別器的獎勵值,更新生成器,然后返回步驟S2311,直至收斂;
步驟S232,執行多次迭代,直至收斂,具體包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810600640.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:病歷數據結構化分析處理方法
- 下一篇:一種腦血管出血與缺血預測方法及裝置





