[發明專利]一種基于語義分割的藥物不良事件關系抽取方法在審
| 申請號: | 202211040440.0 | 申請日: | 2022-08-29 |
| 公開(公告)號: | CN115392256A | 公開(公告)日: | 2022-11-25 |
| 發明(設計)人: | 崔少國;陳俊樺 | 申請(專利權)人: | 重慶師范大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 重慶信航知識產權代理有限公司 50218 | 代理人: | 穆祥維 |
| 地址: | 401331 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 分割 藥物 不良 事件 關系 抽取 方法 | ||
1.一種基于語義分割的藥物不良事件關系抽取方法,其特征在于,包括以下步驟:
S1、藥物不良事件關系抽取模型搭建:
藥物不良事件關系抽取模型用于將醫學文本中的藥物及其造成的不良事件抽取出來,模型結構包括局部上下文信息特征提取器、語義特征融合器、分類器和樣本不平衡處理器;其中,
所述局部上下文信息特征提取器用于從醫學文本的輸入中提取不同提及的局部上下文特征,具體包括:給定一個包含N個文本標記的藥物不良事件文檔首先在藥物提及開頭和結尾插入固定標記s和/s來標記藥物提及位置,然后將對應的候選不良事件提及采用懸浮標記o和/o方式拼接在文本后面,其中o和/o與對應的不良事件提及為同一位置編碼,接著將文本標記和插入的懸浮標記的組合序列提供給BERT預訓練模型,以獲得藥物提及標記局部上下文表示es和不良事件提及標記局部上下文表示eo,將es和eo拼接在一起作為對應藥物提及與不良事件提及對嵌入表示其中M表示樣本中藥物提及與不良事件提及組成的最大提及對數,最后利用BERT預訓練模型獲得注意力表示其中A是BERT預訓練模型最后一個Encoder層中注意力頭的平均值,利用來自BERT預訓練模型的注意力矩陣A以及仿射變換來獲得藥物和不良事件的提及對關系矩陣:
其中,是Hadamard積,W1是可學習的參數矩陣,H為藥物提及與不良事件提及對嵌入表示,As表示藥物提及es對文檔所有標記的注意力,通過平均藥物提及最后一個Encoder層中注意力頭的平均值獲得,Ao表示不良事件提及eo對文檔所有標記的注意力,通過平均不良事件提及最后一個Encoder層中注意力頭的平均值獲得,F(s,o)表示藥物和不良事件的提及對(es,eo)關系矩陣;
所述語義特征融合器用于將局部上下文信息通過編碼模塊和U形語義分割網絡來融合提及的全局依賴,具體包括:先將包含局部上下文信息的提及對關系矩陣F∈RM×M×D作為D通道圖像,再結合一個編碼模塊,然后利用U形語義分割網絡獲取豐富的全局特征,U形語義分割網絡包含順序設置的全局特征提取塊、兩個帶有跳躍連接的上采樣塊和特征輸出層,從而獲得局部上下文及全局依賴信息矩陣:
Y=U(W2F)
其中,Y∈RM×M×D'表示局部上下文及全局依賴信息矩陣,U∈RM×M×D'表示U形語義分割網絡,W2是可學習的權重矩陣,以降低F的維數,且D'遠小于D,W2F表示編碼模塊;
所述分類器用于通過局部上下文及全局依賴信息矩陣和提及平滑嵌入表示來對藥物不良事件關系進行預測,具體包括:先利用文擋中不同位置的提及局部上下文嵌入m,再利用最大池化的平滑版本獲得同一個提及平滑嵌入表示Ei:
其中,Ei表示提及ei的平滑嵌入表示,表示文檔中藥物或不良事件提及ei總共出現的次數;
在分別獲得藥物和不良事件平滑嵌入表示Es和Eo與局部上下文及全局依賴信息矩陣Y后,分類器先利用前饋神經網絡將Es、Eo、Y映射到隱藏表示z,然后通過雙線性函數獲得關系概率,具體過程如下:
zs=tanh(WsEs+Ys,o)
zo=tanh(WoEo+Ys,o)
P(r|Es,Eo)=σ(zsWrzo+br)
其中,zs是藥物隱藏表示,zo是不良事件隱藏表示,P是關系概率,Ys,o是矩陣Y中的藥物和不良事件的提及對(es,eo)的局部上下文及全局依賴信息表示,tanh為非線性激活函數,σ為雙線性函數,Ws、Wo、Wr、br是可學習的參數矩陣;
所述樣本不平衡處理器用于通過引入一種平衡的softmax方法進行訓練,并引入一個額外的類別0來處理樣本集中類別不平衡問題,希望目標類別的分數都大于閾值t0,非目標類別的分數都小于閾值t0:
其中,L表示目標損失函數,log表示以e為底的對數,e表示常數,ti表示第i個正標簽的概率,tj表示第j個負標簽的概率,Ωpos表示藥物及其對應的不良事件提及關系即正標簽,Ωneg表示藥物及其非對應的不良事件提及關系即負標簽;
S2、數據預處理,具體采用以下方法進行提及統一化處理:
先將醫學文本中的提及進行去停頓詞處理,然后再進行正則化匹配,將正則化匹配度高于90%的提及歸為同一個提及;
S3、模型訓練與參數優化:使用處理后的數據對抽取模型進行訓練,設計目標優化函數優化網絡參數,產生最優抽取模型,具體包括以下步驟:
S31、將數據集按7:2:1比例劃分為訓練集、驗證集和測試集;
S32、采用平衡的softmax分類交叉熵損失函數作為優化目標,目標函數采用與步驟S1樣本不平衡處理器中計算目標損失函數L相同的公式來實現;
S33、采用隨機梯度下降算法優化目標函數,運用誤差反向傳播更新網絡模型參數;
S4、藥物不良事件關系抽取:
S41、將待抽取醫學文本數據預處理,獲得標準化后的樣本數據,并將藥物及其非對應的不良事件提及關系對類別定義為0;
S42、對于一個醫學樣本及其包含的所有藥物提及和不良事件提及,構成一條訓練樣本,在所有藥物提及的前后直接插入s和/s兩個固定標記,將不良事件提及用o和/o表示的懸浮標記的方式拼接在文本后面;
S43、將樣本送進BERT預訓練模型中,對于每一對藥物和不良事件提及標記對,分別將藥物提及標記局部上下文表示和不良事件提及標記局部上下文表示拼接在一起,作為對應藥物提及與不良事件提及對嵌入表示;
S44、在獲得樣本所有包含局部上下文信息的藥物提及與不良事件提及對嵌入表示后,與BERT預訓練模型的注意力層做仿射變換來獲得藥物和不良事件的提及對關系矩陣;
S45、將包含局部上下文信息的提及對關系矩陣結合一個編碼模塊,再利用U形語義分割網絡獲取豐富的全局特征,從而輸出所有局部上下文及全局依賴信息矩陣;
S46、獲得藥物和不良事件平滑嵌入表示,利用前饋神經網絡將藥物和不良事件平滑嵌入表示與局部上下文及全局依賴信息矩陣映射到隱藏表示,然后通過雙線性函數獲得關系概率即關系得分;
S47、引入softmax方法計算正樣本關系和負樣本關系的得分,讓正樣本關系的得分都大于0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶師范大學,未經重慶師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211040440.0/1.html,轉載請聲明來源鉆瓜專利網。





