[發明專利]一種利用實體判別信息來提高生物醫學命名體識別的方法在審
| 申請號: | 202210513350.2 | 申請日: | 2022-05-11 |
| 公開(公告)號: | CN114925694A | 公開(公告)日: | 2022-08-19 |
| 發明(設計)人: | 陳毅東;張國成;鐘恩俊;史曉東 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06K9/62;G06N3/04 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森 |
| 地址: | 361005 福建*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 實體 判別 信息 提高 生物醫學 命名 識別 方法 | ||
1.一種利用實體判別信息來提高生物醫學命名體識別的方法,其特征在于包括以下步驟:
1)構建EJNER模型,包括EJ模型、NER模型和特征融合模塊;
2)定義EJ任務并訓練EJ模型;
3)將EJ模型提取的特征和NER模型提取的特征融合,利用融合后的特征進行預測。
2.如權利要求1所述一種利用實體判別信息來提高生物醫學命名體識別的方法,其特征在于在步驟1)中,所述EJ模型作為EJ特征提取模塊用于提取可以判斷單詞是否為實體的特征;所述NER模型作為NER特征提取模塊用于提取可以進行實體識別的特征;所述特征融合模塊用于通過相加、門控單元或多頭注意力機制三種融合方式將EJ特征和NER特征兩種不同的特征融合在一起。
3.如權利要求1所述一種利用實體判別信息來提高生物醫學命名體識別的方法,其特征在于在步驟2)中,所述定義EJ任務并訓練EJ模型的具體步驟為:首先給出EJ任務的形式化定義,假設輸入為X={x1,x2,...,xn},其中,xi表示序列X中第i個單詞,n是序列的長度,若xi是一個實體,則將其標記為“I”,否則標記為“O”;使用預訓練語言模型BioBERT獲取詞嵌入,即給定X,xi的詞嵌入為其中,d表示詞嵌入hi的維度;在獲得輸入序列的詞嵌入后,將其輸入到輸出層進行預測,概率預測公式如下所示:
P(m|xi)=softmax(hiW+b) (1)
其中,都是模型中可訓練的參數,m表示xi的類別數目,softmax是一個可以將多分類的輸出值轉換為范圍在[0,1]且和為1的函數,其公式如下所示:
其中,zi是第i個節點的輸出值,m為輸出節點個數,也就是分類的類別個數;在得到預測概率后,得到EJ任務的損失函數:
其中,N表示序列的長度,當xi的預測類別和c相等時,yic=1,否則yic=0。
4.如權利要求1所述一種利用實體判別信息來提高生物醫學命名體識別的方法,其特征在于在步驟3)中,所述將EJ模型提取的特征和NER模型提取的特征融合,EJNER模型有兩個特征提取器:一個是使用BioBERT在EJ任務上提取的特征,稱之為BioBERTEJ,該EJ模型在步驟2)中已經訓練完畢;另一個NER模型是使用BioBERT在NER任務上提取的特征,稱之為BioBERTNER;將BioBERTEJ模型的參數固定,以避免在訓練BioBERTNER模型過程中,改變BioBERTEJ模型的參數;給定輸入序列X,BioBERTEJ提取的特征為BioBERTNER提取的特征為在得到兩個特征后,將兩個特征融合,假設融合后的特征用fmerged表示,采用如下三種特征融合方式:
第一種是簡單的將兩種特征相加:
這種取均值的方式比較簡單;
第二種是使用門控單元:
fmerged=g(fEJ,fNER) (5)
g(fEJ,fNER)=αfEJ+(1-α)fNER (6)
α=sigmoid(fEJWEJ+fNERWNER) (7)
其中,g表示門控單元函數,均是可訓練參數,d是特征的維度,sigmoid用來將實數映射到(0,1)區間,假設實數值為x,則計算公式如下:
相比較簡單相加的方式,門控單元可以動態的控制不同特征的權重;
第三種是通過多頭注意力機制,該方法使得特征之間可以互相交互:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO (9)
headi=Attention(QWiQ,KWiK,VWiV) (10)
均為模型的可學習參數,h表示head的個數,n表示輸入序列的長度,d表示特征維度,dk和dv表示輸出維度,令Q=fEJ、K=V=fNER;
最后,EJNER模型的預測和損失函數與EJ模型一致。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210513350.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:熔鹽儲熱換熱性能試驗平臺及試驗方法
- 下一篇:一種旅游景區環境質量檢測裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





