[發明專利]基于大數據的藥品通用名清洗方法及系統、服務器及介質在審
申請號: | 201911304412.3 | 申請日: | 2019-12-17 |
公開(公告)號: | CN111125076A | 公開(公告)日: | 2020-05-08 |
發明(設計)人: | 黎云;周斌;沈章 | 申請(專利權)人: | 武漢海云健康科技股份有限公司 |
主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/23;G06F16/903;G06F16/951 |
代理公司: | 武漢藍寶石專利代理事務所(特殊普通合伙) 42242 | 代理人: | 謝洋 |
地址: | 430000 湖北省武漢市東湖新技術*** | 國省代碼: | 湖北;42 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 基于 數據 藥品 通用 清洗 方法 系統 服務器 介質 | ||
1.一種基于大數據的藥品通用名清洗方法,其特征在于,包括如下步驟:
構建標準通用名數據庫:利用網絡爬蟲技術爬取藥品的通用名數據,并獲取已清洗過的藥品的通用名數據,將爬取的藥品的通用名數據與已清洗過的藥品的通用名數據合并排重、清洗以獲得標準通用名數據,并將標準通用名數據導入標準通用名數據庫;
對每一個新增的藥企數據進行通用名清洗:將藥企新增的通用名與標準通用名數據庫中的標準通用名數據進行匹配,若滿足匹配要求則入相應的數據庫,并更新標準通用名數據庫。
2.根據權利要求1所述的藥品通用名清洗方法,其特征在于,所述藥品的通用名數據至少包括該藥品的字段國藥準字、通用名、條形碼、生產廠家。
3.根據權利要求1所述的藥品通用名清洗方法,其特征在于,所述將藥企新增的通用名與標準通用名數據庫中的標準通用名數據進行匹配,若滿足匹配要求則入相應的數據庫,并更新標準通用名數據庫,包括:
采用jieba結巴分析算法提取標準通用名數據中標準通用名的關鍵詞以及藥企新增的通用名的關鍵詞,并進行匹配;
若藥企新增的通用名匹配的標準通用名數據庫中的標準通用名有且僅有一個,則藥企新增的通用名入相應的數據庫,并更新標準通用名數據庫;
若藥企新增的通用名匹配的標準通用名數據庫中的標準通用名為多個,則按照國藥準字進行精準匹配;
若藥企新增的通用名匹配的標準通用名數據庫中的標準通用名為零個,則采用模糊匹配算法進行匹配,若匹配成功則入相應的數據庫,并更新標準通用名數據庫,否則作為噪音數據。
4.根據權利要求3所述的藥品通用名清洗方法,其特征在于,所述采用模糊匹配算法進行匹配包括:
根據Levenshtein相似度模糊匹配算法和difflib模糊匹配算法對藥企新增的通用名的字符串進行配合,并采用不同的權重判斷二者匹配的概率,若概率大于設定值,則匹配成功。
5.根據權利要求4所述的藥品通用名清洗方法,其特征在于,所述Levenshtein相似度模糊匹配算法的權重為0.7,所述difflib模糊匹配算法的權重為0.3。
6.根據權利要求5所述的藥品通用名清洗方法,其特征在于,所述對每一個新增的藥企數據進行通用名清洗還包括對噪音數據進行人工篩選處理。
7.一種基于大數據的藥品通用名清洗系統,其特征在于,包括:
標準通用名數據庫構建模塊,其用于利用網絡爬蟲技術爬取藥品的通用名數據,并獲取已清洗過的藥品的通用名數據,將爬取的藥品的通用名數據與已清洗過的藥品的通用名數據合并排重、清洗以獲得標準通用名數據,并將標準通用名數據導入標準通用名數據庫;
通用名清洗模塊,其用于將藥企新增的通用名與標準通用名數據庫中的標準通用名數據進行匹配,若滿足匹配要求則入相應的數據庫,并更新標準通用名數據庫。
8.一種服務器,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至6任一項所述基于大數據的藥品通用名清洗方法的步驟。
9.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述基于大數據的藥品通用名清洗方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢海云健康科技股份有限公司,未經武漢海云健康科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911304412.3/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置