[發明專利]一種建模全局和局部上下文交互的生物醫學文本表示方法有效
| 申請號: | 202010568029.5 | 申請日: | 2020-06-19 |
| 公開(公告)號: | CN111710428B | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 趙衛中;張晉詠 | 申請(專利權)人: | 華中師范大學 |
| 主分類號: | G16H50/50 | 分類號: | G16H50/50;G06F40/284;G06F40/253;G06F40/205;G06F16/901 |
| 代理公司: | 成都明濤智創專利代理有限公司 51289 | 代理人: | 劉曉政 |
| 地址: | 430079 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 建模 全局 局部 上下文 交互 生物醫學 文本 表示 方法 | ||
本發明公開了一種建模全局和局部上下文交互的生物醫學文本表示方法,屬于生物醫學文本表示方法領域,給定的生物醫學文本是由L個句子組成的序列(S1,…,Si,…,SL),其中每個句子Si表示為該句子中詞組成的序列,通過輸入模塊,給定文本中的每個句子Si可以表示為矩陣Xi,將輸入模塊得到的生物醫學文本的初始表示,輸入到表示學習模塊中進行進一步的文本建模。首先將每個詞作為結點,由開源工具Stanford CoreNLP得到的語法依賴樹作為結點之間的拓撲結構,再應用兩層GCN對Si中的局部上下文信息建模;然后引入超圖概念聚合局部上下文信息得到超圖中相應結點包含全局上下文信息的表示;最后建模局部和全局上下文的信息交互,來學習每句話中相關概念的更豐富的表示。
技術領域
本發明涉及一種生物醫學文本表示方法,特別是涉及一種建模全局和局部上下文交互的生物醫學文本表示方法,屬于生物醫學文本表示方法技術領域。
背景技術
近年來生物醫學領域蓬勃發展,生物醫學文獻呈現爆炸式增長的態勢,如何從大量的生物醫學文本數據中快速準確地獲取目標信息,是一個具備應用前景和研究意義的課題。有效地建模生物醫學文本是能夠有效地進行信息抽取的基礎,已有的文本建模方法大致可以分為三類:(1)傳統的文本建模方法,使用特征選擇或特征提取方法獲得文本特征,并在此基礎上應用經典的分類或者聚類算法進行分類和聚類分析,如TF-IDF、LDA等;(2)基于詞嵌入和深度學習的文本建模方法,能夠自動地為大規模的文本數據學習有意義的特征,從而避免了傳統文本挖掘方法中耗時和復雜的特征工程,如RNN、CNN等;(3)基于圖表示學習的文本建模方法,將文檔或句子視為圖的結點,利用文獻之間的引用關系來構建圖結構,如GCN、GAT等。
生物醫學文本數據規模巨大,由于專業領域的特點,生物醫學文本中的術語縮寫和專有名詞等種類繁多,各類生物醫學概念(如基因、藥物、以及各類生物組織等)之間關系復雜,并且廣泛分布在整篇文本中。同時,這些生物醫學概念往往具有特殊含義,并且這些特殊含義對理解文本語義以及進一步的信息抽取至關重要。因此直接應用已有的文本建模方法并不能取得理想的文本表示,進而會影響下游的生物信息學任務的效果,為此設計一種建模全局和局部上下文交互的生物醫學文本表示方法來優化上述問題。
發明內容
本發明的主要目的是為了提供一種建模全局和局部上下文交互的生物醫學文本表示方法。
本發明的目的可以通過采用如下技術方案達到:
一種建模全局和局部上下文交互的生物醫學文本表示方法,包括如下步驟:
步驟1:假設給定的生物醫學文本是由L個句子組成的序列(S1,…,Si,…,SL),其中每個句子Si表示為該句子中詞組成的序列;
步驟2:每個詞的向量表示由詞嵌入、位置嵌入和實體類型嵌入三部分信息拼接而成;
步驟3:通過輸入模塊,給定文本中的每個句子Si可以表示為矩陣Xi,其中矩陣中的第j行表示第j個詞的向量表示;
步驟4:將輸入模塊得到的生物醫學文本的初始表示,輸入到表示學習模塊中進行進一步的文本建模;
步驟5:將每個詞作為結點,由Stanford CoreNLP得到的語法依賴樹作為結點之間的拓撲結構并用鄰接矩陣A表示;
步驟6:在描述的拓撲結構圖中,應用兩層的GCN對Si中的局部上下文信息建模,可以得到句子Si新的表示,其中每個詞的表示考慮了局部上下文信息;
步驟7:引入超圖概念聚合局部上下文信息得到超圖中相應結點包含全局上下文信息的向量表示;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中師范大學,未經華中師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010568029.5/2.html,轉載請聲明來源鉆瓜專利網。





