[發(fā)明專利]面向句子級生物關(guān)系網(wǎng)絡(luò)抽取的語料庫生成方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201711216700.4 | 申請日: | 2017-11-28 |
| 公開(公告)號: | CN107992476B | 公開(公告)日: | 2020-11-24 |
| 發(fā)明(設(shè)計)人: | 錢龍華;劉加新;劉蘇文;何云琪;袁源;周國棟 | 申請(專利權(quán))人: | 蘇州大學(xué) |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/295 |
| 代理公司: | 蘇州市中南偉業(yè)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32257 | 代理人: | 楊慧林;馮瑞 |
| 地址: | 215000 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 句子 生物 關(guān)系 網(wǎng)絡(luò) 抽取 語料庫 生成 方法 系統(tǒng) | ||
本發(fā)明涉及一種面向句子級的生物關(guān)系網(wǎng)絡(luò)抽取的語料庫生成方法及系統(tǒng),為了實現(xiàn)機器學(xué)習(xí)自動完成文本整個標注過程而設(shè)計。本發(fā)明的方法,包括:對文本句子進行實體識別和映射;生成依存句法樹,從依存句法樹中抽取出包含語句中所有實體的最小子樹,按照結(jié)點在文本句子中的詞序恢復(fù)出對應(yīng)的詞語序列,該詞語序列為最短詞語序列;對樹形結(jié)構(gòu)進行前序遍歷,得到結(jié)點序列;分析詞語序列中的詞和結(jié)點序列中的實體、功能和關(guān)系之間的對應(yīng)關(guān)系,對最短詞序列進行標注,生成關(guān)系網(wǎng)絡(luò)標注語料。本發(fā)明操作方法簡單,極大地節(jié)省了人力物力,并能夠推廣到其他領(lǐng)域的關(guān)系網(wǎng)絡(luò)抽取任務(wù)中。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,具體提出了一種面向句子級的生物關(guān)系網(wǎng)絡(luò)抽取語料庫的生成方法及系統(tǒng)。
背景技術(shù)
生物醫(yī)學(xué)領(lǐng)域的關(guān)系網(wǎng)絡(luò)抽取是生物醫(yī)學(xué)文本挖掘領(lǐng)域的一個重要研究方向,其任務(wù)是從生物醫(yī)學(xué)領(lǐng)域的科學(xué)文獻中識別出命名實體及其相應(yīng)功能,并提取出這些實體及功能之間的交互關(guān)系。作為一項應(yīng)用基礎(chǔ)性研究,這些網(wǎng)絡(luò)信息的抽取對生物醫(yī)學(xué)文獻檢索、生物知識網(wǎng)絡(luò)的構(gòu)建和生物體關(guān)系預(yù)測均具有重大的研究意義。
句子級生物關(guān)系網(wǎng)絡(luò)是指單一句子所表達的生物實體及其功能之間的語義關(guān)系所構(gòu)成的網(wǎng)絡(luò)。如圖1中的句子就表示了一個生物關(guān)系網(wǎng)絡(luò),即對蛋白質(zhì)實體“HGNC:IL2”的催化會顯著提升蛋白質(zhì)實體“HGNC:LYN”和“HGNC:IL2RB”的復(fù)合作用。由于目前的生物關(guān)系網(wǎng)絡(luò)語料是在句子級標注的,并沒有標明關(guān)系網(wǎng)絡(luò)是如何對應(yīng)到句子的文本上的,因此無法直接使用基于機器學(xué)習(xí)的自然語言處理技術(shù)。目前的關(guān)系網(wǎng)絡(luò)抽取方法通常采用模式匹配的方法和事件抽取的方法。基于模式匹配的方法首先從訓(xùn)練語料中總結(jié)出表示實體間關(guān)系網(wǎng)絡(luò)的語言學(xué)模板,然后將這些模板應(yīng)用到新的文獻中,從而提取出相應(yīng)的實體關(guān)系網(wǎng)絡(luò)。其缺點是需要領(lǐng)域?qū)<襾碓O(shè)計模板,可移植性不強。基于事件抽取的方法首先抽取出事件信息,再將事件信息對應(yīng)到關(guān)系網(wǎng)絡(luò)上,其缺點是這種對應(yīng)關(guān)系往往是不完整的。
鑒于上述的缺陷,本設(shè)計人積極加以研究創(chuàng)新,以期創(chuàng)設(shè)一種面向句子級的生物關(guān)系網(wǎng)絡(luò)抽取語料庫的生成方法及系統(tǒng),使其更具有產(chǎn)業(yè)上的利用價值。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本發(fā)明的目的是提供一種將關(guān)系網(wǎng)絡(luò)映射到文本句子中,自動生成生物關(guān)系網(wǎng)絡(luò)抽取所需要的文本語料的面向句子級的生物關(guān)系網(wǎng)絡(luò)抽取語料庫的生成方法及系統(tǒng)。
為達到上述發(fā)明目的,本發(fā)明面向句子級生物關(guān)系網(wǎng)絡(luò)抽取的語料庫生成方法,包括:
S1、據(jù)已標注的關(guān)系網(wǎng)絡(luò)信息,對生物醫(yī)學(xué)領(lǐng)域的文本句子進行實體識別和映射;
S2、文本句子進行依存句法分析,生成依存句法樹,從依存句法樹中抽取出包含語句中所有實體的最小子樹,按照結(jié)點在文本句子中的詞序恢復(fù)出對應(yīng)的詞語序列,該詞語序列為最短詞語序列;
S3、語句表示成樹形結(jié)構(gòu),對樹形結(jié)構(gòu)進行前序遍歷,得到結(jié)點序列;
S4、析詞語序列中的詞和結(jié)點序列中的實體、功能和關(guān)系之間的對應(yīng)關(guān)系,對最短詞語序列進行標注,生成關(guān)系網(wǎng)絡(luò)標注語料。
進一步地,S1的具體包括:
利用生物醫(yī)學(xué)領(lǐng)域的開源工具識別句子中的命名實體,將這些實體鏈接到實體數(shù)據(jù)庫中,得到實體的標識符;
對于工具識別且鏈接成功的條目,在數(shù)據(jù)庫中根據(jù)標識符查詢出其標準名稱,再利用標準名稱和語句中的實體名稱進行匹配,將句子中的實體映射到語句中的實體。
進一步地,S2具體包括:
利用生物醫(yī)學(xué)領(lǐng)域的標注數(shù)據(jù)進行數(shù)據(jù)訓(xùn)練,得到句法分析器;
基于句法分析器對句子進行依存句法分析,將結(jié)果表示成樹形結(jié)構(gòu),也即依存句法樹;
基于依存句法樹,找出根結(jié)點到每個實體結(jié)點的結(jié)點路徑;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州大學(xué),未經(jīng)蘇州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711216700.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





