[發明專利]一種基于注意力神經網絡的生物醫學文本詞義消岐方法在審
| 申請號: | 202110395920.8 | 申請日: | 2021-04-13 |
| 公開(公告)號: | CN113065350A | 公開(公告)日: | 2021-07-02 |
| 發明(設計)人: | 逄淑陽;張春祥;王明磊 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/30;G06N3/08;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150080 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 神經網絡 生物醫學 文本 詞義 方法 | ||
1.一種基于注意力神經網絡的生物醫學文本詞義消岐方法,其特征在于,該方法包括以下步驟:
步驟1:對MSH語料所包含的所有生物醫學歧義詞句子進行分詞、詞性標注和語義信息標注,選取生物醫學歧義詞匯左右四個鄰接詞匯單元的詞形、詞性和語義信息作為消岐特征。
步驟2:提取生物醫學歧義詞匯左右四個鄰接詞匯單元的詞形、詞性和語義信息,使用Word2vec訓練處理好的語料生成相應的詞向量。選取一小部分生成的句子作為測試數據,其余的作為訓練數據。
步驟3:訓練包括前向傳播和反向傳播兩個過程。訓練數據作為注意力神經網絡模型訓練的輸入,經過注意力神經網絡模型的訓練,得到優化后的注意力神經網絡模型。
步驟4:測試過程為前向傳播過程,即語義分類過程。在優化后的注意力神經網絡模型上,輸入測試數據,計算生物醫學歧義詞匯在每個語義類別下的概率分布,其中,具有最大概率的語義類即為生物協醫學歧義詞匯的語義類。
2.根據權利要求1所述的一種基于注意力神經網絡的生物醫學文本詞義消岐方法,其特征在于,所述步驟1中,對英文句子進行分詞、詞性標注和語義信息標注,提取消岐特征,具體步驟為:
步驟1-1根據句子中的空格對英語句子進行詞匯切分;
步驟1-2利用詞性標注工具對已切分好的詞匯進行詞性標注;
步驟1-3利用語義標注工具對已切分好的詞匯進行語義標注;
利用英文詞性標注工具和英文語義標注工具對語料所包含的所有英文句子進行詞性標注和語義標注,選取生物醫學歧義詞匯左右四個鄰接詞匯單元的詞形、詞性和語義信息作為消岐特征。
3.根據權利要求1所述的一種基于注意力神經網絡的生物醫學文本詞義消岐方法,其特征在于,所述步驟2中,以生物醫學MSH語料為基礎,使用Word2vec提取訓練生成相應的詞向量,具體步驟為:
步驟2-1提取生物醫學歧義詞匯的左右四個鄰接詞匯單元的詞形、詞性和語義信息;
步驟2-2使用Word2vec中的CBOW模型獲取每個消歧特征對應的詞向量,選取一小部分處理好的句子作為測試數據,其余的作為訓練數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110395920.8/1.html,轉載請聲明來源鉆瓜專利網。





