[發明專利]一種物質名稱提取方法、裝置及存儲介質在審
| 申請號: | 202010892360.2 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112183076A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 白芳;楊宇星;周杰龍 | 申請(專利權)人: | 北京望石智慧科技有限公司 |
| 主分類號: | G06F40/258 | 分類號: | G06F40/258;G06F40/284;G06F40/205;G06N3/04 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司 11250 | 代理人: | 林韻英 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 物質 名稱 提取 方法 裝置 存儲 介質 | ||
本發明提供一種物質名稱提取方法、裝置及存儲介質,其中,方法包括如下步驟:獲取待提取文本文件;確定所述待提取文本文件是否包含預設標識;當所述待提取文本文件包含所述預設標識,利用預先訓練好的物質名稱提取模型對所述預設標識對應的文本內容進行目標物質名稱提取。通過實施本發明,根據預設標識查找預設標識對應部分的文本內容中是否含有物質名稱信息,而預設標識可以預先根據需要設定,提高了物質名稱提取的靈活性,并且,當預設標識為專利文本中實施例、步驟等對應的文本內容包含詳細技術內容介紹之類的關鍵字,在提高物質名稱提取的針對性的同時,不需要對整篇專利進行名稱提取,從而提高物質名稱提取的效率。
技術領域
本發明涉及自然語言處理領域,具體涉及一種物質名稱提取方法、裝置及存儲介質。
背景技術
專利數據是互聯網中的一種重要的知識產權數據,研究表明,專利雖然只占文獻總量的10%,卻能提供全世界90%~95%的新技術信息。而在藥物研發領域中尤為明顯,大量的潛在成藥的小分子數據分布在文獻、專利等文檔中。其中,化學專利是理解化合物用途、特性和新穎性的重要起點。通常情況下,新化合物最初是在專利文件中公開的,而化學文獻中提及這些化學物質可能需要1-3年的時間,這表明專利是一種有價值的但未充分利用的資源。隨著每年新化學專利申請數量的急劇增加,如何有效的提取分子名稱以發現并利用該分子,是企業界、學術界首要考慮的問題。相關技術中,只能對整篇專利文件進行遍歷識別得到物質名稱,不能根據不同需求篩選分子名稱,提取分子名稱靈活性差。
發明內容
有鑒于此,本發明實施例提供了一種物質名稱提取方法、裝置及存儲介質,以解決現有技術提取分子名稱靈活性差的缺陷。
根據第一方面,本發明實施例提供一種物質名稱提取方法,包括如下步驟:獲取待提取文本文件;確定所述待提取文本文件是否包含預設標識;當所述待提取文本文件包含所述預設標識,利用預先訓練好的物質名稱提取模型對所述預設標識對應的文本內容進行目標物質名稱提取。
可選地,所述預先訓練好的物質名稱提取模型包括:CNN卷積模塊,LSTM神經網絡模塊,線性模塊和CRF條件隨機場模塊;當所述待提取文本文件包含所述預設標識,利用物質名稱提取模型對所述預設標識對應的文本內容進行目標物質名稱提取,包括:利用所述卷積模塊對所述文本內容中每一個語句中單詞的字符向量進行卷積池化,得到每個單詞的字符級特征向量;將所述每個單詞的字符級特征向量、第一預設詞向量以及第二預設詞向量進行拼接,將拼接結果輸入至所述LSTM神經網絡模塊,得到所述語句的特征信息,所述第一預設詞向量從與所述待提取文本文件不同類型的文本文件提取得到,所述第二預設詞向量從與所述待提取文本文件同一類型的歷史文本文件提取得到;將所述語句的特征信息輸出至線性模塊進行計算,將計算結果輸出至CRF條件隨機場模塊進行目標物質名稱提取。
可選地,所述預設標識為多個,所述當待提取文本文件包含預設標識,利用預先訓練好的物質名稱提取模型對預設標識對應的文本內容進行目標物質名稱提取包括:依次對識別出的每一個預設標識對應的目標位置的文本內容進行目標物質名稱提取,直至遍歷全部文本內容。
可選地,所述獲取待提取文本文件,包括:當所述待提取文本文件為不可編輯文本文件,利用目標算法對所述不可編輯文本文件進行可編輯化處理。
可選地,所述待提取文本文件為專利文本文件,所述目標物質名稱為化學物質名稱。
可選地,所述方法還包括:將提取出的化學物質名稱轉化為目標形式。
根據第二方面,本發明實施例提供一種物質名稱提取裝置,包括:文本文件獲取模塊,用于獲取待提取文本文件;預設標識確定模塊,用于確定所述待提取文本文件是否包含預設標識;物質名稱提取模塊,用于當所述待提取文本文件包含所述預設標識,利用預先訓練好的物質名稱提取模型對所述預設標識對應的文本內容進行目標物質名稱提取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京望石智慧科技有限公司,未經北京望石智慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010892360.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可變幅式推力器
- 下一篇:一種用于機器人及普通焊接工位的集煙罩





