[發明專利]基于藥物名稱挖掘自動發現藥物成分的方法和裝置在審
| 申請號: | 202011391719.4 | 申請日: | 2020-12-01 |
| 公開(公告)號: | CN112463895A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 劉輝;曹代軍 | 申請(專利權)人: | 零氪科技(北京)有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/2458 |
| 代理公司: | 北京知果之信知識產權代理有限公司 11541 | 代理人: | 卜榮麗 |
| 地址: | 100089 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 藥物 名稱 挖掘 自動 發現 成分 方法 裝置 | ||
本申請公開了一種基于藥物名稱挖掘自動發現藥物成分的方法和裝置。所述方法包括根據藥物成分實體匹配模型,對待挖掘通用藥物名集合進行匹配,得到未對應有成分實體的待挖掘通用藥物名,以及所述待挖掘通用藥物名對應的候選成分實體集合,其中,所述候選成分實體集合中包括至少一個候選成分實體;根據打分機制對所述候選成分實體集合中每個候選成分實體進行打分;選擇評分最高的N個候選成分實體作為所述待挖掘通用藥物名對應的有效候選成分實體,其中,N為大于0的整數。本申請解決了通過藥物通用名稱自動發現新藥物成分的技術問題。
技術領域
本申請涉及數據處理技術領域,具體而言,涉及一種基于藥物名稱挖掘自動發現藥物成分的方法和裝置。
背景技術
在醫療領域藥物名稱往往包括商品名、通用名、成分名幾個部分,商品名通常是藥物的唯一標識,而通用名和成分名在不同的生產廠商是可能存在相同的。成分名標識了藥物的主要成分,通用名通常除含有藥物成分外還有藥物制劑類型額外信息等。在醫療制藥領域,藥物成分名往往標識了藥物的關鍵信息,挖掘分析市面上藥物成分名往往是下游使用藥物成分信息做研究的基礎。
傳統上對藥物成分的分析往往依賴人工的先驗知識,通過人工看通用名來整理出藥物成分表,這會帶來比較大的人力消耗,同時對于新藥成分的發現也是滯后的。從通用名中獲取成分名的問題,可以轉化為實體抽取的過程,但是鑒于文本過短的問題,很難做到有效抽取。還可以人工設計模板,使用模板進行成分匹配,但這需要有經驗的藥物學專業人員介入,對經驗要求較高,門檻比較高。
相關技術中從藥物通用名中抽取出成分名,理論上可將該問題轉化為實體抽取任務,目前實體抽取的方法比較多樣,在不同的任務場景中表現各異。由于藥物通用名文本較短,通用名本身可以看著是一種實體類型,在這種場景上下文語義信息并不明確,所以對藥物成分名使用實體抽取并不太適用。
在實施本申請實施例的過程中,發明人發現相關技術至少存在以下問題:
相關技術中存在難以通過藥物通用名進行數據分析得到藥物成分的問題。
發明內容
本申請的主要目的在于提供一種基于藥物名稱挖掘自動發現藥物成分的方法和裝置,以相關技術中解決難以通過藥物通用名進行數據分析得到藥物成分的問題。
為了實現上述目的,第一方面,本申請實施例提供了一種基于藥物名稱挖掘自動發現藥物成分的方法,包括:
根據藥物成分實體匹配模型對待挖掘通用藥物名集合進行匹配,得到未對應有成分實體的待挖掘通用藥物名以及所述待挖掘通用藥物名對應的候選成分實體集合,其中,所述候選成分實體集合中包括至少一個候選成分實體;
根據打分機制對所述候選成分實體集合中每個候選成分實體進行打分;
選擇評分最高的N個候選成分實體作為所述待挖掘通用藥物名對應的有效候選成分實體,其中,N為大于0的整數。
可選地,所述方法還包括:
將藥物成分實體種子庫中每個成分實體種子在樣本通用藥物名集合中進行匹配,得到多個匹配模型,其中,所述藥物成分實體種子庫中包含多個成分實體種子,所述樣本通用藥物名集合包含有多種不同的通用藥物名,且每個通用藥物名均對應有成分實體;
根據打分機制對所述多個匹配模型中的每個匹配模型進行打分;
將所述評分最高的K個匹配模型作為所述藥物成分實體匹配模型,其中,K為大于0的整數。
可選地,該方法還包括:
獲取所述樣本通用藥物名集合。
可選地,該方法還包括:
在所述待挖掘通用藥物名對應的有效候選成分實體中確定出所述待挖掘通用藥物名對應的成分實體;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于零氪科技(北京)有限公司,未經零氪科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011391719.4/2.html,轉載請聲明來源鉆瓜專利網。





