[發(fā)明專利]面向多數據源的診療類實體識別方法及裝置有效
| 申請?zhí)枺?/td> | 201710101829.4 | 申請日: | 2017-02-24 |
| 公開(公告)號: | CN107122582B | 公開(公告)日: | 2019-12-06 |
| 發(fā)明(設計)人: | 李雪莉;黃玉麗;關毅 | 申請(專利權)人: | 黑龍江特士信息技術有限公司;哈爾濱工業(yè)大學 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06F17/27 |
| 代理公司: | 11127 北京三友知識產權代理有限公司 | 代理人: | 王濤;賈磊<國際申請>=<國際公布>=< |
| 地址: | 150000 黑龍江省哈爾濱市經開區(qū)*** | 國省代碼: | 黑龍;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 多數 診療 實體 識別 方法 裝置 | ||
本發(fā)明提供了一種面向多數據源的診療類實體識別方法及裝置,涉及醫(yī)療實體識別技術領域。方法包括:獲取原始數據中的待處理語句;將待處理語句進行單字切分,確定待處理語句中的每個文字;根據預先訓練完成的CRF訓練模型,確定待處理語句中的每個文字在待處理語句中的實體標記,并確定待處理語句的實體標記序列;根據待處理語句的實體標記序列,確定待處理語句的第一組候選實體;根據預先設置的診療類術語切分策略,對待處理語句進行術語切分,確定第二組候選實體;對各候選實體進行篩選,分別形成第一組診療類候選實體和第二組診療類候選實體;根據預先設置的判斷策略從第一組診療類候選實體和第二組診療類候選實體中確定診療類實體結果。
技術領域
本發(fā)明涉及醫(yī)療實體識別技術領域,尤其涉及一種面向多數據源的診療類實體識別方法及裝置。
背景技術
目前,隨著網絡和醫(yī)療信息技術的發(fā)展、中國人口逐漸趨于老年化、互聯(lián)網醫(yī)療逐漸興起,醫(yī)療衛(wèi)生行業(yè)大數據也相繼產生。在實際臨床診治過程中,每天都會產生大量的診療信息,對這些診療信息的利用和研究,在例如醫(yī)學統(tǒng)計、科研、教學、醫(yī)療管理等領域中有著重要的作用。由于診療信息的海量化和多各種結構化,僅靠人工力量識別診療信息,再進行研究和利用幾乎是不可能的,必須借助計算機對其識別和利用。但由于醫(yī)療過程中產生的診療信息屬于自然語言,格式復雜多樣,沒有統(tǒng)一的標準,例如,采用多種語言混合表達、使用不規(guī)范語法、錄入有誤信息、采用縮略語或俗稱代替標準術語、文字中夾雜符號等雜亂信息等等,就使得計算機識別診療信息具有相當大的難度。
近年來,醫(yī)療健康領域的蓬勃發(fā)展使得該領域的研究逐漸增多,例如醫(yī)療問答、智能診斷、診療預警等。作為醫(yī)療健康數據分析的重要的一步,醫(yī)療實體識別(例如診療類的實體識別)可以抽取出相關文本中存在的醫(yī)療術語,對后續(xù)研究的性能起到重要的作用。目前常見的實體識別技術有基于詞表的醫(yī)學實體識別和基于條件隨機場(ConditionalRandom Fields,簡稱CRF)的醫(yī)學實體識別,然而基于詞表的醫(yī)學實體識別僅僅依靠術語庫匹配,缺少上下文語境識別,且術語庫匹配存在較大局限性。而基于CRF的醫(yī)學實體識別技術,缺少大數據語料庫和語言規(guī)則的應用,語料均為人工標注后的語料,而沒有利用半監(jiān)督學習等方法,增加對數量更龐大的未標注數據的使用,使得模型不夠完善,缺少基于語言學與醫(yī)療信息的規(guī)則,僅僅依靠模型,對數據的針對性不夠強。可見,當前的實體識別方案并不能準確進行診療類實體識別。
發(fā)明內容
本發(fā)明的實施例提供一種面向多數據源的診療類實體識別方法及裝置,以解決當前的實體識別方案并不能準確進行診療類實體識別的問題。
為達到上述目的,本發(fā)明采用如下技術方案:
一種面向多數據源的診療類實體識別方法,包括:
獲取原始數據中的待處理語句;
將所述待處理語句進行單字切分,確定待處理語句中的每個文字;
根據預先訓練完成的CRF訓練模型,確定待處理語句中的每個文字在待處理語句中的實體標記,并確定待處理語句的實體標記序列;
根據待處理語句的實體標記序列,確定待處理語句的第一組候選實體;
根據預先設置的診療類術語切分策略,對所述待處理語句進行術語切分,確定第二組候選實體;
根據第一組候選實體和第二組候選實體中各候選實體的末尾字符,對各候選實體進行篩選,分別形成第一組診療類候選實體和第二組診療類候選實體;
若第一組診療類候選實體和第二組診療類候選實體不相同,根據預先設置的判斷策略從第一組診療類候選實體和第二組診療類候選實體中確定診療類實體結果。
具體的,所述根據預先設置的判斷策略從第一組診療類候選實體和第二組診療類候選實體中確定診療類實體結果,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于黑龍江特士信息技術有限公司;哈爾濱工業(yè)大學,未經黑龍江特士信息技術有限公司;哈爾濱工業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710101829.4/2.html,轉載請聲明來源鉆瓜專利網。





