[發明專利]基于GPT-2模型的中文電子病歷實體識別方法在審
| 申請號: | 201910946630.0 | 申請日: | 2019-10-06 |
| 公開(公告)號: | CN110674641A | 公開(公告)日: | 2020-01-10 |
| 發明(設計)人: | 朱國勝;吳善超;劉飛鴻;祁小云;吳夢宇 | 申請(專利權)人: | 武漢鴻名科技有限公司;湖北大學;明理醫療科技(武漢)有限公司;賽爾網絡有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30 |
| 代理公司: | 42220 武漢帥丞知識產權代理有限公司 | 代理人: | 劉丹;朱必武 |
| 地址: | 430000 湖北省武漢市東湖新技術開發區*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 電子病歷 實體識別 中文 標注 訓練模型 測試集數據 訓練集數據 命名實體 評估分數 實體標注 輸入中文 數據包含 特征向量 文本形式 運行成本 測試集 訓練集 概率 引入 出口 開發 統一 | ||
1.基于GPT-2模型的中文電子病歷實體識別方法,其特征在于,利用GPT-2預訓練模型提取電子病例的特征向量,再從CRF模型作為出口得到識別概率,最終得到中文電子病例的命名實體,所述方法包括如下步驟:
1)將中文電子病歷的數據分為訓練集和測試集兩個部分,并對兩個部分的數據進行統一標注,標注后的數據包含原始中文電子病歷和實體標注;
1.1)設定標簽的實體類別有:身體部位,癥狀/體征,檢查/檢驗和疾病/診斷;
1.2)設立多個標注小組,分別對所述訓練集和測試集的所有病歷依據以上實體類別人工標注得到實驗的訓練集和測試集,標注結果第一列為實體詞,第二列為該詞在病歷中的開始位置,第三列為該詞在病歷中的結束位置,最后一列為實體類別;
1.3)中文電子病歷的原始數據為x=(x1,x2,x3,...,xn),實體標注為y=(y1,y2,y3,...,yn),其中,x是病歷原始文本,y是與病歷原始文本相對應并等長的實體類別標簽,n為相對應的數據序號;
1.4)輸出的標簽文本為身體部位,癥狀/體征,檢查/檢驗和疾病/診斷,標簽符號為P,S,T,D的形式,簡稱PSTD標簽;
2)以GPT-2預訓練模型為基礎,引入CRF模型,建立基于GPT2-CRF的中文電子病歷實體識別模型,使用訓練集數據訓練,得到訓練后的中文電子病歷實體識別模型;
2.1)下載GPT-2預訓練模型,通過GPT-2預訓練模型獲得文本的輸入語義表示同時進行有監督訓練,最后將結果輸入概率最大標簽序列;
2.2)定義語言模型的預測值為p(sn-k,...,sn|s1,s2,...,sn-k-1),其中s代表原始數據的預測結果,k代表原始數據的序號偏移值,n代表預測值在原始數據中的編號;
2.3)通過使用CRF模型方法估計得到識別概率也就是最終的有監督任務運行結果p(output|input),然后對任務p(output|input)建模,其中output是指模型輸出,input是指模型輸入;
2.4)一般來說,對于同類型的NLP自然語言識別任務的input和output,用向量表示,同時對于本文描述的任務,同樣使用input和output來表示;
2.5)根據上述步驟得到帶有明確的概率值的預測結論,從而證實以這種數據形式可以有監督的訓練一個單一模型;
2.6)從上述步驟得到訓練后的中文電子病歷實體識別模型;
3)將測試集數據輸入中文電子病歷實體識別模型中,通過評估分數得到實體識別的最優標注序列;
3.1)將測試集數據輸入上述步驟得到的實體識別模型中后,需要進一步通過評估分數公式得到最優序列;
3.2)給定序列x=(x1,x2,x3,...,xn)和對應的標簽序列y=(y1,y2,y3,...,yn),定義評估分數為以下公式:
其中W是轉換矩陣,Wi,j是標簽轉移分數,Pi,yi表示該字符的第yi個標簽的分數,Pi定義為:
Pi=wsh(t)+bs
其中h(t)是上一層t時刻輸入數據x(t)的隱藏狀態,參數ws表示權值矩陣,bs表示增量參數;
對CRF的訓練采用的是最大條件似然估計,對訓練集合{(xi,yi)},其中似然公式為:
其中P表示序列原序列到預測序列對應的概率為:
其中λ代表給定的概率分布,θ表示分布參數;
采用實體識別的通用評價指標:精確率P、召回率R和F值:
其中,Tp為模型正確識別的實體個數,Fp為模型識別到的不相關的實體格個數,Fn是相關實體但是模型沒有檢測到的個數;
3.3)最終得到中文電子病例的命名實體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢鴻名科技有限公司;湖北大學;明理醫療科技(武漢)有限公司;賽爾網絡有限公司,未經武漢鴻名科技有限公司;湖北大學;明理醫療科技(武漢)有限公司;賽爾網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910946630.0/1.html,轉載請聲明來源鉆瓜專利網。





