[發明專利]面向藥物研發的數據處理方法及系統在審
| 申請號: | 202011085891.7 | 申請日: | 2020-10-12 |
| 公開(公告)號: | CN112164430A | 公開(公告)日: | 2021-01-01 |
| 發明(設計)人: | 吳楚楠;徐旻;張佩宇;馬健;溫書豪;賴力鵬 | 申請(專利權)人: | 深圳晶泰科技有限公司 |
| 主分類號: | G16C20/70 | 分類號: | G16C20/70 |
| 代理公司: | 深圳市科吉華烽知識產權事務所(普通合伙) 44248 | 代理人: | 胡吉科 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 藥物 研發 數據處理 方法 系統 | ||
一種面向藥物研發的數據處理方法及系統包括:構建多種數據集成器,根據不同數據采用匹配的數據訪問方式獲取數據,將數據序列化推送給數據收集管道,數據收集管道將獲取的數據以批量、異步的方式存儲于數據倉庫中,對每個數據記錄標定唯一標識;觸發器將存儲在數據倉庫中數據的唯一標識發送給數據清洗管道,數據清洗訂閱者處理數據清洗管道中的數據,對數據進行處理,將處理后的數據存儲于數據倉庫中,并加上新的標識,對數據倉庫中的數據進行分析,并將分析結果存儲于知識庫中;上述面向藥物研發的數據處理方法及系統對接不同數據源的數據信息,通過批量數據處理及持久化技術存儲、清洗、重算原始數據,進而根據需要構建成面向領域問題的知識庫。
技術領域
本發明涉及藥物研發的輔助方法,特別涉及一種面向藥物研發的數據處理方法及系統。
背景技術
在現有的藥物研發過程中,藥物數據的收集、整理與分析是貫穿藥物研發流程的重要步驟,常用的藥物研發信息收集一般有以下幾個類目的數據:
基于藥物靶點信息的數據:
包括靶點生物學功能及臨床分子相關的適應癥、適應癥的流行病學、為滿足的臨床需求等,常用的公開數據源有例如:Pubmed,Google Scholar,知網等。
基于藥物及蛋白質結構信息的數據:
靶點相關信息可通過Uniprot等網站查詢,靶點相對應的蛋白質晶體結構信息可在PDB數據庫中查詢及獲取。
基于同類型藥物的競品信息:
包括靶點相關的藥物信息、專利、以及藥物相關的交易、上市藥物的銷售額等信息。可在例如Cortellis、藥渡、Reaxys、Clinical Trials、國家藥審中心、FDA等網站獲取。
基于藥物專利相關的信息:
藥物專利相關信息查詢,可從包括EPO、WIPO、Google Patents等獲取相關信息。
基于藥物活性的相關信息:
藥物活性數據,可從例如ChEMBL、PubChem等公開數據源獲取。
總體來說,全面豐富的數據信息收集及整理對于藥物研發流程的決策、風向控制、質量及上市成功率都尤為重要,是藥物研發過程中不可或缺的環節。
藥物信息數據類型紛繁復雜,包括常用的公開數據源、計算機輔助藥物設計(CADD)軟件產生的結果、藥物研發流程中的實驗數據等,他們都存在各自的數據結構、存儲方式及數據訪問方式,導致藥物信息收集與整理的過程非常依賴于藥物研發相關人員的知識背景、技術手段及時間精力投入。
而其中從數據獲取到可以被用于藥物研發決策的知識庫又存在如下問題:
數據收集、聚合與清洗的問題:
多種數據源的訪問方式集成、數據高效采集、數據更新及存儲整理,公開數據源數據量大而干擾多,要提取出有價值的信息需要百萬到億級別的數據收集、轉換及清洗工具;而商用或定制化數據源,雖然質量相對較高且有相對標準化的數據訪問方式,但各自數據訪問協議、接口及數據格式有所不同,如何匯總到一起進行維護是一個難題。同時無論公開數據源或者商用、定制化數據源都存在數據增量更新的問題。
數據重算的問題:
清洗聚合過后的數據,一般需要經過一系列數據清洗的手段得到最終有利于藥物研發的信息,例如對于分子去重、電荷鍵級錯誤處理、手性分子處理等,這些處理方法的每一次更新或者新增都可能需要對歷往收集并清洗之后的數據進行重算,規模大耗時長是這部分的主要問題。
數據到知識庫的構建問題:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳晶泰科技有限公司,未經深圳晶泰科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011085891.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鋰電池及其卷繞方法
- 下一篇:一種多管式高效節能環保鍋爐





