[發明專利]一種建模全局和局部上下文交互的生物醫學文本表示方法有效
| 申請號: | 202010568029.5 | 申請日: | 2020-06-19 |
| 公開(公告)號: | CN111710428B | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 趙衛中;張晉詠 | 申請(專利權)人: | 華中師范大學 |
| 主分類號: | G16H50/50 | 分類號: | G16H50/50;G06F40/284;G06F40/253;G06F40/205;G06F16/901 |
| 代理公司: | 成都明濤智創專利代理有限公司 51289 | 代理人: | 劉曉政 |
| 地址: | 430079 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 建模 全局 局部 上下文 交互 生物醫學 文本 表示 方法 | ||
1.一種建模全局和局部上下文交互的生物醫學文本表示方法,其特征在于:包括如下步驟:
步驟1:假設給定的生物醫學文本是由L個句子組成的序列(S1,...,Si,...,SL),其中每個句子Si表示為該句子中詞組成的序列;
步驟2:對每個詞的向量分成詞嵌入、位置嵌入和實體類型嵌入三部分信息拼接而成;
步驟3:通過輸入模塊,給定文本中的每個句子Si可以表示為矩陣Xi,其中矩陣中的第j行表示第j個詞的向量表示;
步驟4:將輸入模塊得到的生物醫學文本的初始表示,輸入到表示學習模塊中進行進一步的文本建模;
步驟5:將每個詞作為結點,由Stanford CoreNLP得到的語法依賴樹作為結點之間的拓撲結構并用鄰接矩陣A表示;
步驟6:在描述的拓撲結構圖中,應用兩層的GCN對Si中的局部上下文信息建模,可以得到句子Si新的表示,其中每個詞的表示考慮了局部上下文信息;
步驟7:引入超圖概念聚合局部上下文信息得到超圖中相應結點包含全局上下文信息的向量表示;
其中步驟7中引入超圖的概念用于建模整篇生物醫學文本中的全局上下文信息,其中,文本中的每句話視為超圖中的超邊,相關的生物醫學概念視為超圖中的結點,每篇生物醫學文本可以表示為一個超圖,通過聚合局部上下文信息得到生物醫學概念包含全局上下文信息的向量表示Hi;
步驟8:通過建模局部和全局上下文的信息交互,來學習每句話中相關生物醫學概念的更豐富的表示。
2.根據權利要求1所述的一種建模全局和局部上下文交互的生物醫學文本表示方法,其特征在于:其中步驟2中詞嵌入采用預訓練模型GloVe作為詞嵌入模型;
位置嵌入:采用不同頻率的正弦和余弦函數建模句子中不同的位置信息;
實體類型嵌入:為每種實體類型隨機初始化一個向量用于表示實體類型所蘊含的信息,實體類型嵌入向量作為模型的參數,通過訓練過程來優化。
3.根據權利要求2所述的一種建模全局和局部上下文交互的生物醫學文本表示方法,其特征在于:其中步驟6中每個詞的表示考慮了局部上下文信息,兩層的GCN形式化表示如下:
其中I是與A同階的單位矩陣,為圖的度矩陣,ReLU為非線性激活函數,W(0)和W(1)分別為兩層GCN的參數矩陣。
4.根據權利要求1-3任意一項所述的建模全局和局部上下文交互的生物醫學文本表示方法的應用,其特征在于,包括如下步驟:
步驟1:假設超圖表示為G=(V,E),其中V為結點的集合,E為超邊的集合;
步驟2:給定一篇生物醫學文本,應用開源工具BioBERT標注生物醫學文本中的生物醫學概念實體,并將其視為超圖中的結點;
步驟3:文本中的每句話視為超圖中的超邊,通過兩層基于語法依賴樹的GCN得到句子Si的向量表示Hi;
步驟4:然根據句子中每個詞的表示,應用最大池化操作MAXpool(Hi)得到該句子的表示,并作為超圖中相應超邊的表示,記作gi;
步驟5:對于超圖中的每個結點v,與其鄰接的超邊,集合記為根據中超邊的表示;
步驟6:通過注意力機制學習每個超邊對超圖中結點v表示的貢獻權重。
5.根據權利要求4所述的建模全局和局部上下文交互的生物醫學文本表示方法的應用,其特征在于:假設超邊的注意力權重記為αi,通過一個聚合函數,可以得到考慮全局上下文的生物醫學概念的全局表示記作HGv,形式化表示如下:
其中表示結點v對應的生物醫學概念在句子Si的表示,通過上述公式可以看出,超圖中結點的表示融合了文本中的全局上下文信息,即考慮了同一個生物醫學概念在整個文本中的語義信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中師范大學,未經華中師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010568029.5/1.html,轉載請聲明來源鉆瓜專利網。





