[發(fā)明專利]從研究文獻中提取天然產(chǎn)物數(shù)據(jù)信息的方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201911006389.X | 申請日: | 2019-10-22 |
| 公開(公告)號: | CN110782955B | 公開(公告)日: | 2023-03-28 |
| 發(fā)明(設計)人: | 徐挺軍;陳維明;趙英莉;戴靜芳;李英勇;周俊紅 | 申請(專利權)人: | 中國科學院上海有機化學研究所 |
| 主分類號: | G16C20/50 | 分類號: | G16C20/50 |
| 代理公司: | 北京商專永信知識產(chǎn)權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;車江華 |
| 地址: | 200032 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 研究 文獻 提取 天然 產(chǎn)物 數(shù)據(jù) 信息 方法 系統(tǒng) | ||
本發(fā)明公開一種從研究文獻中提取天然產(chǎn)物數(shù)據(jù)信息的方法,包括:對研究文獻文本內(nèi)容進行預處理,以得到多個預處理語句;從所述多個預處理語句中獲取生物物種描述語句和化學成分描述語句;從所述生物物種描述語句中獲取生物物種信息;從所述化學成分描述語句中獲取化學物質(zhì)信息;至少關聯(lián)存儲所述生物物種信息和所述化學物質(zhì)信息。本申請實施例自動分析天然產(chǎn)物研究文獻的文本內(nèi)容,并自動識別和提取其中的天然產(chǎn)物化學成分數(shù)據(jù)信息,用于計算機大規(guī)模批量生產(chǎn)具有科學研究價值的天然產(chǎn)物數(shù)據(jù),從而避免人工標引數(shù)據(jù)周期長、成本高等缺陷,達到短時間、低消耗獲取一定規(guī)模天然產(chǎn)物化學成分數(shù)據(jù)集的目的。
技術領域
本發(fā)明涉及文獻信息處理技術領域,尤其涉及一種從研究文獻中提取天然產(chǎn)物數(shù)據(jù)信息的方法及系統(tǒng)。
背景技術
天然產(chǎn)物為生物體自身的組成成分、代謝產(chǎn)物或者提取物,經(jīng)過了生物體長期進化過程中的自然選擇和優(yōu)化,往往具有獨特的化學結(jié)構(gòu)以及能和特定疾病的靶標互相結(jié)合的能力,因此具有天然的藥物屬性,有的可以直接用于疾病的治療。例如,我國科學家在1972年從傳統(tǒng)中藥青蒿里提取的青蒿素,是治療瘧疾的高效藥物,為人類與瘧疾的抗爭提供了有力武器,挽救了無數(shù)的生命。因此,尋找自然界中的天然產(chǎn)物活性分子,分析其特定的活性骨架、有效基團,研究其對人體運行機制及相關疾病的構(gòu)效關系,對藥物特別是創(chuàng)新藥物的發(fā)現(xiàn)具有非常重要的指導意義。但是天然產(chǎn)物主要來自于植物、微生物和海洋生物,由有機分子化合物組成,具有化學結(jié)構(gòu)復雜、種類繁多、獲取方法困難、尚有大量天然產(chǎn)物未被發(fā)現(xiàn)其藥用價值等特點。要想從廣泛的天然產(chǎn)物中篩選藥效化合物,累積或者生產(chǎn)一定規(guī)模的天然產(chǎn)物化學成分數(shù)據(jù),建立天然產(chǎn)物化學成分數(shù)據(jù)庫,利用現(xiàn)代計算機信息技術從大數(shù)據(jù)中獲取知識和規(guī)律來指導藥物創(chuàng)新,是藥物研發(fā)過程中一種非常有效的技術手段。
現(xiàn)有的天然產(chǎn)物化學成分數(shù)據(jù)采集和生產(chǎn)主要依靠人工標引。人工標引生產(chǎn)天然產(chǎn)物化學成分數(shù)據(jù),采用專業(yè)數(shù)據(jù)分析人員瀏覽相關天然產(chǎn)物化學成分研究文獻,通過人工將其中的天然產(chǎn)物數(shù)據(jù)信息提取出來的方法,進行數(shù)據(jù)的生產(chǎn)和匯集。人工標引數(shù)據(jù)需要較大的人力成本投入和時間消耗,無法應對海量大數(shù)據(jù)的加工和處理,而且隨著科學技術的不斷發(fā)展,天然產(chǎn)物成分研究也在不斷推進,天然產(chǎn)物化學成分數(shù)據(jù)也需要不斷補充和實時更新,由于人力資源配置及研發(fā)項目時間有限制,因此采用人工標引的數(shù)據(jù)生產(chǎn)方法可持續(xù)性較差。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種從研究文獻中提取天然產(chǎn)物數(shù)據(jù)信息的方法及系統(tǒng),用于至少解決上述技術問題之一。
第一方面,本發(fā)明實施例提供一種從研究文獻中提取天然產(chǎn)物數(shù)據(jù)信息的方法,包括:
對研究文獻文本內(nèi)容進行預處理,以得到多個預處理語句;
從所述多個預處理語句中獲取生物物種描述語句和化學成分描述語句;
從所述生物物種描述語句中獲取生物物種信息;
從所述化學成分描述語句中獲取化學物質(zhì)信息;
至少關聯(lián)存儲所述生物物種信息和所述化學物質(zhì)信息。
在一些實施例中,在從所述多個預處理語句中獲取生物物種描述語句和化學成分描述語句之后還包括:
生成對應于所述生物物種描述語句的第一語句解析模式數(shù)據(jù);
生成對應于所述化學成分描述語句的第二語句解析模式數(shù)據(jù);
所述第一和第二解析模式數(shù)據(jù)分別包括:定位標記、定位符、多重標記、分隔符。
在一些實施例中,所述生物物種信息包括生物物種學名、生物名稱和取用部位信息;所述化學物質(zhì)信息包括化學物質(zhì)名稱和化學物質(zhì)編號。
在一些實施例中,所述從所述生物物種描述語句中獲取生物物種信息包括:
根據(jù)所述第一語句解析模式數(shù)據(jù)中的定位標記和定位符,截取當前預處理語句的描述部分;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院上海有機化學研究所,未經(jīng)中國科學院上海有機化學研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911006389.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





