[發明專利]醫學短文本數據負樣例采樣方法及醫學診斷標準術語映射模型訓練方法有效
| 申請號: | 202010159004.X | 申請日: | 2020-03-09 |
| 公開(公告)號: | CN111460091B | 公開(公告)日: | 2023-10-27 |
| 發明(設計)人: | 劉霄;趙鑫 | 申請(專利權)人: | 杭州麥歌算法科技有限公司 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F18/21;G06F18/22;G06F16/36;G06F40/237;G06F40/289;G06N3/08;G16H10/60 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 諸佩艷 |
| 地址: | 310051 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 醫學 文本 數據 負樣例 采樣 方法 診斷 標準 術語 映射 模型 訓練 | ||
本發明涉及醫學短文本數據負樣例采樣方法及醫學診斷標準術語映射模型訓練方法,包括:基于原始醫學診斷數據得到待映射文本,進而生成訓練集,驗證集,測試集、基于標準術語集和待映射文本集合生成正樣例集合、對于正樣例集合中的任意正樣例,基于相似度計算函數生成候選負樣例集合、獲取正樣例集合的一個子集,對于其中的每個正樣例,從候選負樣例集合中抽取部分或全部負樣例生成訓練集,將正樣例集合的子集與訓練集合并后形成一個訓練批次、將訓練批次帶入神經網絡模型中進行訓練。本發明提取負樣例更具代表性,分別提起正負樣例對修改的模型進行模擬訓練,實現對模型進行泛化改進,模型的性能得到提升,提升了對未知細粒度術語的識別泛化性。
技術領域
本發明屬于生命健康技術領域,尤其涉及一種基于相似度的負樣例采樣方法及基于負樣例采樣的醫學診斷標準術語映射模型訓練方法,適用于各種純文本醫學診斷的標準術語映射。
背景技術
隨著電子病歷的廣泛使用,當前國內積累了大量的既往醫學短文本數據,挖掘其中蘊含著豐富的信息能夠極大促進詢證醫學的發展。但是由于我國缺乏統一的電子病歷信息化標準,各地,各醫院甚至各部門在實際使用電子病歷系統中產生了大量的非標準的信息。將這些信息進行清洗整合,把不同的醫生書寫表達統一成標準的醫學術語是有效的數據分析的必要前提。面對海量的電子病歷記錄,人工整理的方式效率低下,成本高昂,必須采用自然語言處理技術(NLP)來進行自動化標準術語映射。
目前對于病歷診斷欄內容的識別映射主要是基于傳統搜索引擎的方式,將標準術語當做被搜索的文檔,將待映射文本當做搜索詞,對于一個待映射文本返回排名第一的標準術語。傳統搜索引擎通常包括召回和排序兩個環節。兩個環節使用不同的評分方法,在召回環節中,盡量多的返回和搜索詞潛在相關的文檔;在排序環節中,則強調精確性,盡量將最相關的文檔排在前面。通過分詞來獲取相似度計算中有意義的語義單元,增加相似度計算的精確性;通過同義詞表來增加泛化性。然而,通過分詞,同義詞表來計算標準術語和待識別文本之間的文本相似度的方法有以下弊端:1.對于分詞精確度的要求很高,錯誤的分詞直接導致很大的相似度計算偏差;2.而針對醫學術語的分詞拆分本身需要大量專業語料標注,成本高,分詞粒度規范難以制定;3.醫生書寫中有許多縮略語,單獨拆分開沒有實際意義或者有很大歧義,必須緊密聯系上下文來理解,傳統的相似度計算方式采用n-gram的方式來緩解這種問題,但是往往造成特征空間爆炸,需要海量的語料進行擬合;4.相似度計算中一般采用BOW的方式,忽略術語中詞之間的關系。而真實數據中往往會有多個診斷混寫在一起,不同診斷的語義成分混合會形成不存在的相似診斷;5.傳統相似度計算中由于忽略了上下文關系,對于同一個詞采用了相同的權重,而導致精確度的損失;6.在面對多個診斷混寫的情況,不知道應該取搜索引擎返回的第一個診斷還是前k個診斷。
針對傳統搜索引擎方法的弊端,目前主流方法是在排序環節加入深度學習技術,比如專利號為CN 108595614 A的發明公開的應用于HIS系統的數據表映射方法,包括以下步驟:分別從第一HIS系統的數據庫和第二HIS系統的數據庫中選取各自的待匹配數據表,并分別提取每一個待匹配數據表的特征數據;根據提取的特征數據,計算所述第一HIS系統的待匹配數據表中的字段與所述第二HIS系統的待匹配數據表中的字段之間的相似度;基于相似度判斷任意兩個分別屬于不同系統的字段之間是否互相匹配;如果匹配,則在所述第一HIS系統的數據表中的字段和對應的所述第二HIS系統的數據表中的字段之間建立映射關系。
上述映射方法可以理解為加入了深度學習技術對病歷診斷欄內容進行識別映射,其使用字向量、循環神經網絡、注意力機制來處理上下文的問題,將相似度問題轉化為二分類問題進行模型訓練,將相似案例作為正樣例,不相似案例作為負樣例。但是這種做法難以選擇有代表性的負樣例,雖然能滿足相對精度要求不是很高的搜索場景,但是對于專業的術語映射,判斷精度往往達不到實用要求。
發明內容
本發明目的在于針對現有技術的不足,提供一種不依賴HIS系統本身數據格式,適用于各種純文本醫學診斷的醫學短文本數據負樣例采樣方法及醫學診斷標準術語映射模型訓練方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州麥歌算法科技有限公司,未經杭州麥歌算法科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010159004.X/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





