[發明專利]融入結構化要素識別的生物醫學事件抽取方法有效
| 申請號: | 201710933832.2 | 申請日: | 2017-10-10 |
| 公開(公告)號: | CN107818141B | 公開(公告)日: | 2020-07-14 |
| 發明(設計)人: | 李麗雙;錢爽;劉陽 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪;侯明遠 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融入 結構 要素 識別 生物醫學 事件 抽取 方法 | ||
1.一種融入結構化要素識別的生物醫學事件抽取方法,其特征在于,步驟如下:
(1)特征抽取
對于候選觸發詞和要素的特征抽取,首先從大規模未標注語料中訓練生物醫學詞向量,使之包含更豐富的語義和句法信息,從而更好的進行特征表示;此外,分別對觸發詞和要素進行特征抽取,并融入詞向量,最終生成特征向量;觸發詞和要素的其他有效特征信息如下:
1)觸發詞特征
將語料中非命名實體的所有詞視為候選觸發詞,選取特征如下:
①詞特征;
②頻度特征;
③依存鏈;
④與最近實體的最短路徑特征;
2)要素特征
通過斯坦福解析器得到句子的句法依存樹,獲取句法依存關系中的最短路徑,借助最短路徑精確的捕獲要素邊之間的關系,選取特征如下:
①獨立成分特征,由依存路徑中的邊和單詞以及其在路徑中的位置特征構成;其中,位置特征指在路徑的內部或路徑的終端;
②語義節點信息,直接將候選事件要素的兩個終端的屬性結合在一起形成的;
③最短路徑特征;
④鄰接依存邊特征;
(2)基于PA在線學習算法的觸發詞識別
在觸發詞識別階段,將命名實體外的所有單詞作為候選觸發詞,為每個候選觸發詞分配一個類型,不是候選觸發詞的為負類;候選觸發詞識別采用上述特征及PA在線算法模型,同時結合線性核函數,獲得候選觸發詞可信度;
設t時刻,當前實例是xt,即屬于空間Rn的特征向量;同時,假定實例xt關聯一個唯一的類別標簽yt;算法中用到的預測函數為其中的權重向量滿足wt∈Rn,而wt·Φ(xt,y)的大小是預測標簽的可信度;那么PA算法的任務認為是增量的學習權重向量w,具體過程如下:
輸入:參數C0
初始化:權重向量w1=(0,...,0)
for t=1,2...
獲取樣例:xt∈Rn
預測:
其中,Φ(xt,y)為與標簽相關的特征向量;
獲取正確標簽:yt∈Υ
損失量:
更新:
1)設置學習率:
2)更新權重:wt+1=wt+τtytxt
輸出權重向量:return w;
將PA在線算法應用到觸發詞識別過程中,在于從訓練集的觸發詞實例中學習得到各個觸發詞類別對應的特征權重向量模型,然后通過學習到的特征權重向量模型對測試集實例進行預測;其中,計算觸發詞實例作為各個類型的得分,即可信度;
(3)基于Viterbi算法和PA在線學習算法的結構化要素識別
根據生物醫學事件的定義,對于復雜事件,要素邊既可指向另一個事件的觸發詞,也可指向實體;當由兩個要素候選構成的要素對結構與該復雜事件中真實要素構成的要素對結構一致時,稱其為最佳要素結構;其中,將針對句子中某一觸發詞引導的兩個候選要素對看作馬爾科夫鏈;將句子中的事件觸發詞以及實體作為要素候選,將這些要素候選看作馬爾可夫鏈的觀察狀態,將它們的要素類型作為隱狀態,即已知觀察狀態序列求相應的隱狀態序列;
使用Viterbi算法的思想尋找隱狀態序列,并用PA在線學習算法計算結構化要素可信度;Viterbi算法是一種動態規劃算法,用于尋找最有可能產生觀察狀態序列的隱狀態序列,即在知道觀察狀態序列以及概率矩陣的情況下,求解最有可能產生這一觀察狀態序列的隱狀態序列;
1)使用Viterbi算法和PA在線學習算法訓練結構化要素模型
①Viterbi算法構建最佳要素結構
最佳要素結構體現了要素之間的依賴關系,用Viterbi算法構建最佳要素結構,設ei表示句子中第i個實體,認為是第i個單詞;ej表示句子中第j個實體,認為是第j個單詞;r表示要素的類型;(ei,ej,rj)表示要素;F(ei,ej,rj)代表要素(ei,ej,rj)的特征向量;F(ei,ej,rj,ek,rk)代表要素結構(ei,ej,rj,ek,rk)的特征向量,具體過程如下:
輸入:權重向量w,所有的特征向量F(ei,ej,rj),F(ei,ej,rj,ek,rk)
for i from 0 to n:
輸出:Back,即其中的最佳要素結構;
其中,PI(ei,ej,rj)表示整個結構以第j個實體為結尾,要素的類型為r的最高值;Back(ei,ej,rj)表示要素(ei,ej,rj)的前一個要素(ei,ek,rk);
②結構化要素識別訓練過程
先利用Viterbi算法預測出針對句子中某一觸發詞的最佳要素結構,然后和真實的要素結構進行比較,如果預測正確,那么則繼續預測下一組最佳要素結構;如果預測錯誤,則權重向量加上預測結構與真實結構特征向量的差值;最后,得到權重向量w;具體過程如下:
輸入:每一個句子的要素結構Ω,及其對應的特征向量;
初始化權重向量w為0,
重復t次:
對所有的子句子si做如下操作:
利用Viterbi算法選取出要素結構Ω,使w和F(Ω)的乘積最大,
其中,F(Ω)的表示Ω結構的特征向量;
Ωi為si的真實要素結構,如果Ωi≠Ω,那么使用PA算法更新權重向量w;
輸出:權重向量w;
2)用訓練好的模型進行結構化要素預測
首先,對測試集實例進行特征抽取,得到要素及要素結構的特征向量;然后,使用訓練好的模型針對句子中的某一觸發詞對應的候選要素序列進行結構化預測;
(4)基于雙分解的生物醫學事件抽取
雙分解聯合模型可避免分階段方法中的級聯錯誤,將結構化要素識別與雙分解算法進行有效融合;經過基于PA在線學習算法觸發詞識別和結構化要素識別后,分別得到觸發詞和要素結構分屬于各類型的可信度;雙分解方法先計算觸發詞和要素結構的可信度之和,然后選出該可信度之和最高的并且滿足約束的觸發詞類型和要素結構中各要素類型,從而構成最終的事件結構;由于雙分解過程中采用的是要素結構,所以對原始雙分解算法的改進模型為如下公式(1)所示:
其中,ST(i,υ)表示分配給候選觸發詞i的類型為υ的分值,即可信度;ei,υ表示候選觸發詞i及其類型υ;SR(i,j,rj,p,rp)表示要素邊i→j其類型為rj、要素邊i→p其類型rp的分值;要素邊i→j其類型為rj,要素邊i→p,類型rp;其推理過程表示為公式(2):
雙分解在聯合優化的過程中設計約束條件如下:
O約束條件:觸發詞必須有Theme要素、只有Regulation類型觸發詞有Cause要素、非觸發詞沒有要素;
I約束條件:事件的要素邊連接的終端必須是觸發詞或實體,即不能是None類型的觸發詞;
雙分解進行事件抽取的流程如下:
初始化:λ=0,υ=0,N為迭代次數,lr是學習率
forυ=1,2,...,N:
如果λ沒有再變化則退出循環
return(e,a);
首先計算出符合約束O的最優事件結構(e,a),再計算出符合約束I的最優事件結構只要(e,a)和不相等,就調節拉格朗日乘子,并最終達到相等狀態,或達到最大迭代次數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710933832.2/1.html,轉載請聲明來源鉆瓜專利網。





