[發明專利]一種基于神經網絡的臨床醫學信息提取方法在審
| 申請號: | 201711462492.6 | 申請日: | 2017-12-28 |
| 公開(公告)號: | CN108182976A | 公開(公告)日: | 2018-06-19 |
| 發明(設計)人: | 李辰;王軒;龍雨;李質婧 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06F17/27 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 王艾華 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 臨床醫學 信息提取 詞匯 卷積神經網絡 上下文信息 形態學信息 機器學習 人為設計 數據領域 醫療數據 字符向量 字符組成 捕獲 單詞 文本 智能 醫學 研究 | ||
1.一種基于神經網絡的臨床醫學信息提取方法,其特征在于,包括以下步驟:
步驟1:首先對訓練文本和測試文本進行分詞處理,將分詞后得到的訓練文本用BIO標簽進行標記;
步驟2:針對24個英文字母與其他常見字符構建其對應的初始字符向量表,并以PubMed數據庫中的生物醫學文章為語料庫構建初始詞向量,基于步驟1分詞后的文本,通過查表獲得每個單詞對應的初始詞向量以及每個字符對應的初始字符向量;
步驟3:構建基于步驟2生成的字符向量與詞向量聯合輸入的神經網絡醫學實體提取模型,模型分為編碼器,解碼器與分類器三大部分,分別使用CNN網絡與Bi-LSTM網絡對字符向量與詞向量的輸入進行編碼,使用Bi-LSTM網絡解碼,使用softmax分類器完成分類;
步驟4:使用BIO標記后的訓練數據訓練上述模型,通過對比訓練數據中的實際的BIO標簽與本模型分類得到后的BIO標簽的差異,調整模型參數以優化分類性能;
步驟5:使用測試數據對步驟4訓練好的模型進行測試,最終通過softmax分類器得到的BIO標簽序列提取出醫學實體。
2.根據權利要求1所述的一種基于神經網絡的臨床醫學信息提取方法,其特征在于,所述步驟2,包括以下步驟:
步驟2.1:利用隨機數對現存的所有英文字符初始化其對應的字符向量,具體做法是針對初始化向量的每一維,都從的范圍內隨機生成一個數字進行賦值,其中dim是字符向量的維度,將所有的初始字符向量集合在一起生成一個初始字符向量表,dim的大小在30至50之間;
步驟2.2:對于訓練文本和測試文本中的所有字符,通過查找步驟2.1生成的初始字符向量表獲得其對應的初始字符向量;
步驟2.3:利用斯坦福公開的GLoVe詞向量模型方法,選取PubMed數據庫中的生物醫學文章為語料庫產生初始詞向量表;
步驟2.4:對于訓練文本和測試文本中的所有單詞,通過查找步驟2.3生成的初始詞向量表獲得其對應的初始詞向量。
3.根據權利要求1所述的一種基于神經網絡的臨床醫學信息提取方法,其特征在于,所述步驟3,包括以下步驟:
步驟3.1:利用步驟2.2生成的初始字符向量,將組成每個單詞的字符其對應的初始字符向量拼接起來生成初始字符矩陣送入卷積神經網絡(以每個單詞為單位)進行編碼,對于每一個輸入至卷積神經網絡的初始字符矩陣,首先經過一個卷積層,利用卷積核將組成每個單詞相鄰字符的初始字符向量進行卷積,然后將卷積層輸出的矩陣輸入至一個最大池化層,針對于卷積層輸出矩陣的每個行向量,利用最大池化層選取數值最大的那一維代表整個行向量包含的信息,則經過最大池化層后,輸出一個與初始字符向量維數相同的向量;
步驟3.2:利用步驟2.3生成的初始詞向量,將每個句子中所有單詞對應的初始詞向量拼接起來送入至一個Bi-LSTM中進行編碼,其中雙向LSTM中包含有兩個LSTM層,一個是前向LSTM,一個是后向LSTM,則針對于一個句子中的第t個單詞,利用前向LSTM獲得包含第一個單詞至第t個單詞上下文信息的對應向量hft,利用后向LSTM獲得包含第t個單詞到最后一個單詞上下文信息的對應向量hbt,將向量拼接起來,作為第t個單詞的詞向量ht=(hft,hbt);
步驟3.3:設CNN層輸出的每個單詞i對應的字符向量為{c1,c2,…,cdim},Bi-LSTMencoding層輸出每個單詞i對應的詞向量為{wh1,wh2,…,whn},則對其進行歸一化,即設cmax為字符向量數值最大的那一維,設whmax為單詞向量數值最大的那一維,則最終的字符向量為{c1/cmax,c2/cmax,…,cdim/cmax},最終詞向量為{wh1/whmax,wh2/whmax,…,whn/whmax},將以上兩個向量進行拼接得到每個單詞對應的最終向量mi{c1/cmax,c2/cmax,…,cdim/cmax,wh1/whmax,wh2/whmax,…,whn/whmax},將每個句子中所有單詞對應的最終向量級聯起來形成最終向量矩陣,然后以句子為單位輸入至Bi-LSTM網絡進行解碼;
步驟3.4:將Bi-LSTM解碼后的輸出向量通過最終的softmax層,得到對每個單詞最終的BIO標記結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711462492.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種幼兒園健康風險預測方法
- 下一篇:門診診斷編碼方法和系統





