[發明專利]基于GPT-2模型的中文電子病歷實體識別方法在審
| 申請號: | 201910946630.0 | 申請日: | 2019-10-06 |
| 公開(公告)號: | CN110674641A | 公開(公告)日: | 2020-01-10 |
| 發明(設計)人: | 朱國勝;吳善超;劉飛鴻;祁小云;吳夢宇 | 申請(專利權)人: | 武漢鴻名科技有限公司;湖北大學;明理醫療科技(武漢)有限公司;賽爾網絡有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30 |
| 代理公司: | 42220 武漢帥丞知識產權代理有限公司 | 代理人: | 劉丹;朱必武 |
| 地址: | 430000 湖北省武漢市東湖新技術開發區*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 電子病歷 實體識別 中文 標注 訓練模型 測試集數據 訓練集數據 命名實體 評估分數 實體標注 輸入中文 數據包含 特征向量 文本形式 運行成本 測試集 訓練集 概率 引入 出口 開發 統一 | ||
本發明涉及一種基于GPT?2模型的中文電子病歷實體識別方法,利用GPT?2預訓練模型提取電子病例的特征向量,再從CRF模型作為出口得到識別概率,最終得到中文電子病例的命名實體,所述方法包括如下步驟:1)將中文電子病歷的數據分為訓練集和測試集兩個部分,并對兩個部分的數據進行統一標注,標注后的數據包含原始中文電子病歷和實體標注;2)以GPT?2預訓練模型為基礎,引入CRF模型,建立基于GPT2?CRF的中文電子病歷實體識別模型,使用訓練集數據訓練,得到訓練后的中文電子病歷實體識別模型;3)將測試集數據輸入中文電子病歷實體識別模型中,通過評估分數得到實體識別的最優標注序列。該方法不受文本形式限制,容易實現,并且開發和運行成本低。
技術領域
本發明涉及中文語言處理和識別技術領域,具體涉及一種基于GPT-2模型的中文電子病歷實體識別方法。
背景技術
近年來,在國家政策的支持與驅動下,在互聯網、大數據、人工智能等前沿技術的支撐下,智慧醫療進入飛速發展時期。國家新一代人工智能、腦科學與類腦研究重大專項逐步啟動實施,智慧醫療科技研究與產業發展步入新的階段。同時隨著經濟的發展,人們對自己的健康和社會所能提供的醫療服務越來越關注。目前,有限的醫療資源和醫療水平逐漸無法滿足人們看病問診的需求。例如,針對電子病歷中的文本:“患者出現發熱及左下腹痛,行CT檢查示膽總管結石”。在這句話中,“CT”是醫學檢查方法,“發熱”和“左下腹痛”是患者癥狀,“膽總管結石”是確診疾病。這三者在實體識別中被稱為命名實體,這三個實體之間的關系是“發熱”和“左下腹痛”確定了檢查項目為“CT”,“CT”檢查證實了“膽總管結石”的發生,也就是“膽總管結石”表現為“發熱”和“左下腹痛”并被“CT”這一醫學檢查方式得到了證實。從電子病歷中通過實體識別得到的這些結果,將作為訓練集標注各個實體以及實體之間的關系,最終服務于臨床決策和智能問診系統。
發明內容
本發明的目的是:提供一種基于GPT-2模型的中文電子病歷實體識別方法,目的在于提高現有實體識別技術的準確率,引入無監督預訓練模型。相對于現有技術可以更有效的提取出中文電子病歷的特征向量,對于整個識別任務能夠靈活的計算每次輸入的文本,不受文本形式限制,容易實現,并且開發和運行成本較低,通過一臺服務器便可實現大規模中文電子病歷實體識別服務,判斷的速度和準確率也高。
為了達到上述目的,本發明所采用的技術方案是:
基于GPT-2模型的中文電子病歷實體識別方法,其特征在于,利用GPT-2預訓練模型提取電子病例的特征向量,再從CRF模型作為出口得到識別概率,最終得到中文電子病例的命名實體,所述方法包括如下步驟:
1)將中文電子病歷的數據分為訓練集和測試集兩個部分,并對兩個部分的數據進行統一標注,標注后的數據包含原始中文電子病歷和實體標注;
1.1)設定標簽的實體類別有:身體部位,癥狀/體征,檢查/檢驗和疾病/診斷;
1.2)設立多個標注小組,分別對所述訓練集和測試集的所有病歷依據以上實體類別人工標注得到實驗的訓練集和測試集,標注結果第一列為實體詞,第二列為該詞在病歷中的開始位置,第三列為該詞在病歷中的結束位置,最后一列為實體類別;
1.3)中文電子病歷的原始數據為x=(x1,x2,x3,...,xn),實體標注為y=(y1,y2,y3,...,yn),其中,x是病歷原始文本,y是與病歷原始文本相對應并等長的實體類別標簽,n為相對應的數據序號;
1.4)輸出的標簽文本為身體部位,癥狀/體征,檢查/檢驗和疾病/診斷,標簽符號為P,S,T,D的形式,簡稱PSTD標簽;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢鴻名科技有限公司;湖北大學;明理醫療科技(武漢)有限公司;賽爾網絡有限公司,未經武漢鴻名科技有限公司;湖北大學;明理醫療科技(武漢)有限公司;賽爾網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910946630.0/2.html,轉載請聲明來源鉆瓜專利網。





