[發明專利]藥品知識圖譜構建方法及系統有效
| 申請號: | 201911421839.1 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111221979B | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 劉大海 | 申請(專利權)人: | 北京左醫健康技術有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36 |
| 代理公司: | 北京潤平知識產權代理有限公司 11283 | 代理人: | 肖冰濱;王曉曉 |
| 地址: | 101200 北京市平谷區中關村科*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 藥品 知識 圖譜 構建 方法 系統 | ||
本發明公開了一種藥品知識圖譜構建方法,包括:確定關于藥品知識的若干類別的實體,所述實體包含若干知識要素;確定用于反映所述實體的知識要素間關系的關系/屬性標記;獲取藥品說明書數據;建立并使用匹配模板來匹配所述藥品說明書數據,得到三元組;和/或,通過人工處理所述藥品說明書數據,得到三元組;融合并保存所述三元組,得到藥品知識圖譜。本發明通過匹配模板和人工標注兩種方式單獨或組合來對藥品說明書數據進行處理得到三元組,在人工標注之前對藥品說明書數據進行簡化融合,大大減少了文本的信息量,降低了人工標注的工作量;在匹配/標注完成后通過對齊處理、沖突處理等消除了文本中表述的不一致和內容的沖突,保證了文本的準確性。
技術領域
本發明涉及知識圖譜技術領域,特別涉及一種藥品知識圖譜構建方法、系統以及一種計算機可讀存儲介質。
背景技術
知識圖譜本質上是語義網絡(Semantic Network)的知識庫,也可以把知識圖譜簡單理解為多關系圖。知識庫是用于知識管理的一種特殊的數據庫,以便于有關領域知識的采集、整理以及提取。
在知識圖譜里,我們通常用“實體”來表達圖里的節點、用“關系/屬性”來表達圖里的“邊”。實體指的是現實世界中的事物比如地名、概念、藥物、成分、公司等,關系用來表達不同實體之間的某種聯系,屬性用于描述實體的內在特征,屬性與關系有時可以互換。
現有技術中,缺少較為優質的藥品知識圖譜,原因在于很多藥品知識圖譜構建方案中使用字符串匹配或者實體識別模型從藥品說明書里抽取知識的方案,效果其實并不理想,不管是匹配還是實體識別,都會存在大量的錯誤數據和遺漏數據。實體識別技術首先需要人工標注樣本,然后訓練實體識別模型。藥品標注的場景,十分復雜,需要幾千至幾萬的樣本標注量,實際效果也沒有字符串匹配抽取的效果準確。
醫藥行業是一個特殊的行業,數據錯誤和缺失都會造成很大的健康隱患,據統計數據顯示,我國每年有250萬人因為錯誤用藥而損害健康,其中死亡的有20萬人,是全國交通事故死亡人數的兩倍,可見藥品知識的準確性特別重要。
發明內容
有鑒于此,本發明旨在提出一種藥品知識圖譜構建方法和系統,能夠便捷高效的構建藥品知識圖譜,構建過程中通過對藥品說明書數據的融合/合并,減少了需要處理的信息量,并且通過對模板匹配和人工標注結果進行融合處理,避免了藥品知識圖譜中的表述不一致和錯誤。
為達到上述目的,本發明的技術方案是這樣實現的:
一種藥品知識圖譜構建方法,包括:
確定關于藥品知識的若干類別的實體,所述實體包含若干知識要素;
確定用于反映所述實體的知識要素間關系的關系/屬性標記;
獲取藥品說明書數據;
建立并使用匹配模板來匹配所述藥品說明書數據,得到三元組;和/或,通過人工處理所述藥品說明書數據,得到三元組;其中,所述三元組用于反映兩個所述知識要素和所述關系/屬性標記三者之間的關系;
融合并保存所述三元組,得到所述藥品知識圖譜。
進一步地,所述確定關于藥品知識的若干類別的實體,包括:
羅列出藥品相關的所述知識要素;
通過對所述知識要素進行歸類以確定所述實體。
進一步地,所述實體包括以下至少一個或幾個類型:通用名實體、商品名實體、化學名實體、批準文號實體、劑型實體、規格實體、給藥方式實體、給藥時間實體、注意事項實體、癥狀實體、疾病實體、人群實體、藥品類別實體、成分實體、性別實體、相互作用實體、藥品配伍實體。
進一步地,所述確定用于反映所述實體的知識要素間關系的關系/屬性標記,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京左醫健康技術有限公司,未經北京左醫健康技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911421839.1/2.html,轉載請聲明來源鉆瓜專利網。





