[發(fā)明專利]醫(yī)學關(guān)系提取方法及裝置有效
| 申請?zhí)枺?/td> | 202110109117.3 | 申請日: | 2021-01-27 |
| 公開(公告)號: | CN112820411B | 公開(公告)日: | 2022-07-29 |
| 發(fā)明(設計)人: | 俞聲;林毓聰 | 申請(專利權(quán))人: | 清華大學 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06F16/34;G06F16/35;G06F16/36;G06F40/211 |
| 代理公司: | 北京鴻元知識產(chǎn)權(quán)代理有限公司 11327 | 代理人: | 董永輝;曹素云 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 醫(yī)學 關(guān)系 提取 方法 裝置 | ||
1.一種醫(yī)學關(guān)系提取方法,其特征在于,包括以下步驟:
從醫(yī)學電子病歷中統(tǒng)計設定時間窗口中醫(yī)學概念對出現(xiàn)的次數(shù),獲得醫(yī)學概念對中兩個醫(yī)學概念向量,所述醫(yī)學概念對是指同時出現(xiàn)在同一設定時間窗口中的兩個醫(yī)學概念;
利用所述兩個醫(yī)學概念與知識庫匹配,獲得兩個醫(yī)學概念之間的關(guān)聯(lián)關(guān)系,從而構(gòu)建關(guān)系概念三元組;
根據(jù)所述關(guān)系概念三元組從醫(yī)學文本集中挖掘得到多個概念語句;
構(gòu)建訓練樣本集,所述訓練樣本集包括正樣本和負樣本,每個樣本結(jié)構(gòu)是由所述關(guān)系概念三元組、所述兩個醫(yī)學概念向量、概念語句構(gòu)成;
利用所述訓練樣本集訓練融合模型,獲得訓練后的融合模型;
利用所述訓練后的融合模型進行醫(yī)學關(guān)系提取,
所述融合模型包括并列的線性層和關(guān)系概念三元組模塊,以及連接在后面的Softmax全連接層,所述關(guān)系概念三元組模塊包括依次連接的BioBERT深度學習編碼器和句子級注意力機制層,
所述兩個醫(yī)學概念向量經(jīng)過線性層壓縮獲得第一編碼,
所述關(guān)系概念三元組的所述多個概念語句輸入BioBERT深度學習編碼器獲得各個概念語句的向量,各個概念語句的向量經(jīng)過句子級注意力機制層進行加權(quán),獲得關(guān)系概念三元組的向量編碼作為第二編碼,所述第一編碼和第二編碼拼接后輸入到Softmax全連接層,并將Softmax全連接層輸出的兩個醫(yī)學概念向量之間的關(guān)系判斷與關(guān)系概念三元組進行比對,從而訓練融合模型。
2.根據(jù)權(quán)利要求1所述的醫(yī)學關(guān)系提取方法,其特征在于,所述根據(jù)所述關(guān)系概念三元組從醫(yī)學文本集中挖掘得到多個概念語句,包括:
利用所述關(guān)系概念三元組到醫(yī)學文本集的每個文章中去抽取每個語句與該語句所在文章標題的集合中包含該關(guān)系概念三元組中的兩個醫(yī)學概念的語句,如果語句中包含兩個醫(yī)學概念,則將該語句作為概念語句,如果語句中僅包含有一個醫(yī)學概念,則將該語句所在的文章的標題與語句拼接共同作為概念語句。
3.根據(jù)權(quán)利要求1所述的醫(yī)學關(guān)系提取方法,其特征在于,
所述句子級注意力機制層對關(guān)系概念三元組的各概念語句的向量進行加權(quán),從而獲得關(guān)系概念三元組的向量編碼的公式如下:
αEP=softmax(RTvEP),
r=RαEP
其中ri為關(guān)系概念三元組對應的概念語句的向量;
αEP為句子級注意力機制的自學習權(quán)重向量;
softmax()是歸一化指數(shù)函數(shù);
vEP是可訓練的權(quán)重向量;
r為關(guān)系概念三元組的向量編碼。
4.根據(jù)權(quán)利要求1所述的醫(yī)學關(guān)系提取方法,其特征在于,所述負樣本的生成方式包括:
用不同的關(guān)系概念三元組對應的概念語句替換正樣本的概念語句,并將該正樣本的兩個醫(yī)學概念用目標類型的醫(yī)學概念替換。
5.根據(jù)權(quán)利要求1所述的醫(yī)學關(guān)系提取方法,其特征在于,所述負樣本的生成方式包括:
通過訓練好的詞嵌入加權(quán)平均模型計算選取與正樣本的向量夾角最小的潛在負樣本作為負樣本。
6.根據(jù)權(quán)利要求1所述的醫(yī)學關(guān)系提取方法,其特征在于,所述獲得兩個醫(yī)學概念向量的方法包括:
從醫(yī)學電子病歷中統(tǒng)計設定時間窗口中醫(yī)學概念對出現(xiàn)的次數(shù)形成共現(xiàn)矩陣,根據(jù)所述共現(xiàn)矩陣獲得互信息矩陣,所述互信息矩陣是醫(yī)學概念對的共現(xiàn)次數(shù)除以醫(yī)學概念對中的每個醫(yī)學概念各自在該設定時間窗口中出現(xiàn)的次數(shù)并取對數(shù)函數(shù),并對所述互信息矩陣做SVD矩陣分解,獲得醫(yī)學概念向量。
7.根據(jù)權(quán)利要求1所述的醫(yī)學關(guān)系提取方法,其特征在于,
所述醫(yī)學電子病歷指的是含有病人問診時間、病史描述、檢查與診斷信息的自由文本數(shù)據(jù)。
8.根據(jù)權(quán)利要求1所述的醫(yī)學關(guān)系提取方法,其特征在于,所述醫(yī)學概念對包括以下三種關(guān)聯(lián)關(guān)系中的一種:導致、被導致、鑒別診斷。
9.一種醫(yī)學關(guān)系提取裝置,其特征在于,包括:
醫(yī)學概念向量獲取模塊,用于從醫(yī)學電子病歷中統(tǒng)計設定時間窗口中醫(yī)學概念對出現(xiàn)的次數(shù),獲得醫(yī)學概念對中兩個醫(yī)學概念向量,所述醫(yī)學概念對是指同時出現(xiàn)在同一設定時間窗口中的兩個醫(yī)學概念;
三元組構(gòu)建模塊,用于利用所述兩個醫(yī)學概念與知識庫匹配,獲得兩個醫(yī)學概念之間的關(guān)聯(lián)關(guān)系,從而構(gòu)建關(guān)系概念三元組;
概念語句挖掘模塊,用于根據(jù)所述關(guān)系概念三元組從醫(yī)學文本集中挖掘得到多個概念語句;
訓練樣本集構(gòu)建模塊,用于構(gòu)建訓練樣本集,所述訓練樣本集包括正樣本和負樣本,每個樣本結(jié)構(gòu)是由所述關(guān)系概念三元組、所述兩個醫(yī)學概念向量、概念語句構(gòu)成;
訓練模塊,用于利用所述訓練樣本集訓練融合模型,獲得訓練后的融合模型;
提取模塊,用于利用所述訓練后的融合模型進行醫(yī)學關(guān)系提取,
所述融合模型包括并列的線性層和關(guān)系概念三元組模塊,以及連接在后面的Softmax全連接層,所述關(guān)系概念三元組模塊包括依次連接的BioBERT深度學習編碼器和句子級注意力機制層,
所述兩個醫(yī)學概念向量經(jīng)過線性層壓縮獲得第一編碼,
所述關(guān)系概念三元組的所述多個概念語句輸入BioBERT深度學習編碼器獲得各個概念語句的向量,各個概念語句的向量經(jīng)過句子級注意力機制層進行加權(quán),獲得關(guān)系概念三元組的向量編碼作為第二編碼,所述第一編碼和第二編碼拼接后輸入到Softmax全連接層,并將Softmax全連接層輸出的兩個醫(yī)學概念向量之間的關(guān)系判斷與關(guān)系概念三元組進行比對,從而訓練融合模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學,未經(jīng)清華大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110109117.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種高效芯片燒錄機
- 下一篇:一種微創(chuàng)介入式人工心臟軸流血泵
- 將醫(yī)學設備自動整合到醫(yī)學設施網(wǎng)絡的方法和設備
- 醫(yī)學詢問細化系統(tǒng)、方法、裝置及包括醫(yī)學詢問系統(tǒng)的工作站
- 將醫(yī)學設備自動整合到醫(yī)學設施網(wǎng)絡的方法和設備
- 基于人工智能的醫(yī)學影像分類處理系統(tǒng)及方法
- 一種醫(yī)學圖像系統(tǒng)
- 醫(yī)學知識圖譜構(gòu)建方法及裝置、存儲介質(zhì)和電子設備
- 一種實現(xiàn)醫(yī)學編碼映射的方法、裝置及設備
- 醫(yī)學影像的分類方法、醫(yī)學影像的檢索方法和裝置
- 一種醫(yī)學圖像處理方法、醫(yī)學圖像識別方法及裝置
- 醫(yī)學圖像標記方法、裝置、設備及存儲介質(zhì)





