[發明專利]基于字詞讀音融合特征模型的電子病歷命名實體識別方法在審
| 申請號: | 202110531278.1 | 申請日: | 2021-05-12 |
| 公開(公告)號: | CN113139385A | 公開(公告)日: | 2021-07-20 |
| 發明(設計)人: | 史晟輝;趙鑫 | 申請(專利權)人: | 北京化工大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G16H10/60;G06N3/04 |
| 代理公司: | 鄭州裕晟知識產權代理事務所(特殊普通合伙) 41142 | 代理人: | 徐志威 |
| 地址: | 100029 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 字詞 讀音 融合 特征 模型 電子 病歷 命名 實體 識別 方法 | ||
本發明公開了基于字詞讀音融合特征模型的電子病歷命名實體識別方法,包括以下步驟:生成待識別命名實體的電子病歷的字符序列對應的字符的字詞向量的集合;生成字符序列對應的讀音向量;將讀音向量輸入到第一神經網絡進行處理,得到字符序列對應的讀音加強字詞向量;將讀音加強字詞向量經過詞頻權重和讀音權重處理融合生成字詞讀音特征模型;將字詞讀音特征模型輸入到第二神經網絡中進行處理,得到電子病歷的命名實體識別結果;本發明具備遷移性,降低了模型構建的復雜工作程度,對于標注數據較少的領域進行命名實體識別任務,具有良好的電子病歷的命名實體識別效果。
技術領域
本發明屬于計算機技術領域,涉及一種基于字詞讀音融合特征模型的電子病歷命名實體識別方法。
背景技術
隨著我國社會經濟的蓬勃發展及人民生活水平的日益提高,人們健康意識也日益增強,如何利用大量的醫療數據來構建智能醫療體系是目前社會的迫切需求。電子病歷時醫療數據里數量最多,包含信息也最多的醫療數據文本,其具有其獨特的專業性。很多智能醫療信息系統都是基于電子病歷的信息來構建。在構建智能醫療信息系統和體系的過程中,命名實體識別對大量的醫療數據進行信息抽取的重要任務的基礎,對各種醫療領域的信息處理和管理系統十分重要。
目前基于動態結構融合詞匯信息需要通過修改相應的特征抽取模型,這導致模型結構復雜和推斷效率低的問題;此外國內的醫療文本記錄體系不完善,醫療文本數據中存在儲存時沒有對數據中的命名實體進行標注,使得可用于命名實體識別任務所需的帶標注信息的中文醫療文本數據更加缺乏,降低了電子病歷的命名實體識別效果。
發明內容
針對上述問題,本發明提出了一種基于字詞讀音融合特征模型的電子病歷命名實體識別方法,很好的解決了現有技術中模型構建復雜、推斷效率低和命名實體是被效果不佳的問題。
為了實現上述目的,本發明采用的技術方案如下:基于字詞讀音融合特征模型的電子病歷命名實體識別方法,包括以下步驟:
生成待識別命名實體的電子病歷的字符序列對應的字符的字詞向量的集合;
生成所述字符序列對應的讀音向量;
將所述讀音向量輸入到第一神經網絡進行處理,得到所述字符序列對應的讀音加強字詞向量;
將讀音加強字詞向量經過詞頻權重和讀音權重處理融合生成字詞讀音特征模型;
將所述字詞讀音特征模型輸入到第二神經網絡中進行處理,得到所述電子病歷的命名實體識別結果。
進一步的,所述字詞向量的集合為BMES集合,通過Soft-lexicon構造模型生成,生成“B”、“M”、“E”、“S”四個詞集,并且BMES集合中的字詞向量表示如下:
e(B,M,E,S)=[v(B)+v(M)+v(E)+v(S)]
其中:“B”集合保存當前字為詞首字的單詞列表;“M”集合保存當前字為詞中間字的單詞列表,“E”集合保存當前字為詞尾字的單詞列表,“S”集合保存當前字為單獨字成詞的單詞列表。
進一步的,所述讀音向量通過壓縮的字母表法生成。
進一步的,所述第一神經網絡包括字符特征層、特征抽取層、標簽解碼層。
進一步的,所述讀音加強字詞向量的表示向量如下:
xc←[xc;e(B*,M*,E*,S*)]
其中:*表示字詞向量經過讀音向量加強表示。
進一步的,所述第二神經網絡為卷積網絡,并由一層一維卷積核加上兩層三維卷積核共三層組成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京化工大學,未經北京化工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110531278.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:踏步探路導盲器
- 下一篇:一種節能環保型的滅菌爐





