[發明專利]一種基于LSTM-CRF的中醫臨床醫案癥狀命名實體抽取系統在審
| 申請號: | 202111279393.0 | 申請日: | 2021-10-29 |
| 公開(公告)號: | CN113962227A | 公開(公告)日: | 2022-01-21 |
| 發明(設計)人: | 林麗開;李剛;丁海雁 | 申請(專利權)人: | 南京醫路云數字科技研究院有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/04;G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210000 江蘇省南京市江北新*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lstm crf 中醫 臨床 醫案 癥狀 命名 實體 抽取 系統 | ||
1.一種基于LSTM-CRF的中醫臨床醫案癥狀命名實體抽取系統,其特征在于:包括LSTM-CRF網絡模型,所述LSTM-CRF網絡模型包括輸入層、特征提取層、LSTM層和CRF層;所述輸入層用于獲取中醫臨床醫案癥狀的文本信息;所述特征提取層用于對輸入的文本信息的每一個字進行特征提取,并制定特征模板;所述LSTM層用于自動提取文字的特征;所述CRF層用于文字級別的序列標注,生成最優標注序列。
2.根據權利要求1所述的一種基于LSTM-CRF的中醫臨床醫案癥狀命名實體抽取系統,其特征在于:所述特征提取層提取的文字特征包括文字的字符特征、字性特征、偏旁部首特征以及字意特征,對輸入文字信息的每一個字進行標注,生成單個字的輸出特征,所有字的輸出特征組成特征序列。
3.根據權利要求2所述的一種基于LSTM-CRF的中醫臨床醫案癥狀命名實體抽取系統,其特征在于:所述特征提取層中,是依據中醫臨床醫案癥狀類別標簽和BMEWO標記法對輸入的每一個字進行標注。
4.根據權利要求1所述的一種基于LSTM-CRF的中醫臨床醫案癥狀命名實體抽取系統,其特征在于:所述特征提取層包括兩個LSTM深度網絡,且兩個LSTM深度網絡拼接成雙向LSTM深度網絡。
5.根據權利要求4所述的一種基于LSTM-CRF的中醫臨床醫案癥狀命名實體抽取系統,其特征在于:所述雙向LSTM深度網絡包括輸入門、忘記門和輸出門,其中:
輸入門,根據網絡需要制定有用的信息輸入,阻斷無用的信息輸入;
忘記門,選擇有價值的信息保存在網絡中;
輸出門,控制序列輸出對當前標注有用的信息,防止對當前標注無用的信息輸出。
6.根據權利要求1所述的一種基于LSTM-CRF的中醫臨床醫案癥狀命名實體抽取系統,其特征在于:所述序列標注包括如下步驟:
步驟一:對文字信息預處理進行詞向量表征,將每一個字分解成若干個偏旁部首;
步驟二:將分解后的文字信息轉換為字向量表示;
步驟三:采用雙向LSTM深度網絡對分解后的中醫臨床醫案癥狀文字信息進行編碼訓練,提取每個字的特征,利用CRF對每個字進行標記。
7.根據權利要求6所述的一種基于LSTM-CRF的中醫臨床醫案癥狀命名實體抽取系統,其特征在于:利用預設的One Hot或非線性PCA編碼方式將分解后的每一個字轉化為與之相對應的字向量。
8.根據權利要求7所述的一種基于LSTM-CRF的中醫臨床醫案癥狀命名實體抽取系統,其特征在于:所述序列標注還包括:
步驟四:將標記分成可識別不同識別語料的不同標記,并劃分為不同的訓練集和測試集;
步驟五:將得到的訓練集輸入到LSTM-CRF模型中進行訓練,得到具有中醫臨床醫案癥狀命名實體的訓練模型;
步驟六:利用步驟五中的訓練模型去訓練步驟四中的測試集,進行命名實體抽取識別,得到抽取識別結果。
9.根據權利要求8所述的一種基于LSTM-CRF的中醫臨床醫案癥狀命名實體抽取系統,其特征在于:所述序列標注還包括:
步驟七:分別計算抽取識別結果在訓練集和測試集上的精確率、召回率和F1值,并將精確率、召回率和F1值進行對比。
10.根據權利要求9所述的一種基于LSTM-CRF的中醫臨床醫案癥狀命名實體抽取系統,其特征在于:訓練集和測試集的比例為20∶1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京醫路云數字科技研究院有限公司,未經南京醫路云數字科技研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111279393.0/1.html,轉載請聲明來源鉆瓜專利網。





