[發明專利]一種基于實體關系聯合抽取模型的多三元組抽取方法有效
| 申請號: | 201810993387.3 | 申請日: | 2018-08-29 |
| 公開(公告)號: | CN109165385B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 趙翔;譚真;郭愛博;葛斌;郭得科;肖衛東;唐九陽;黃旭倩 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F16/36;G06N3/04 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 馬驍;于潔 |
| 地址: | 410003*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 實體 關系 聯合 抽取 模型 三元 方法 | ||
本發明公開了一種基于實體關系聯合抽取模型的多三元組抽取方法,其特征在于包括步驟:獲取文本,對目標文本進行分句處理,并對句子中的每個單詞進行位置、類型、是否涉及關系標記;建立實體關系聯合抽取模型;對實體關系聯合抽取模型進行訓練;根據實體關系聯合抽取模型進行三元組抽取;本發明設計的三部分標記方案,在實體關系聯合抽取的過程中能夠排除與目標關系不相關的實體;此外,本發明一種基于實體關系聯合抽取模型的多三元組抽取方法可以用來抽取多三元組,并且基于本發明三元組抽取方法的模型與其它模型相比有更強的多三元組抽取能力。
技術領域
本發明涉及文本處理技術領域,特別是指一種基于實體關系聯合抽取模型的多三元組抽取方法。
背景技術
三元組抽取得到結構化的信息(同時抽取兩個實體和他們之間的關系)來自非結構化的文本,這是自動知識庫構建的一個關鍵步驟,傳統的模型分別使用命名實體識別(NER)和關系分類(RC)抽取實體和關系,產生最后的三元組。這種模塊化的方法不能充分捕捉和利用NER和RC的任務之間的相關性,并容易級聯錯誤。
為了克服這些缺點,有人提出了聯合抽取模型。他們中的大多數是特征結構模型,這需要過多的人工干預和監督的自然語言處理工具來構建多元化、復雜化的特征。最近,已經提出了一些神經網絡模型來聯合抽取實體和關系。鄭先生等人利用雙向長短期記憶網絡(Bi-LSTM)來學習聯合的隱藏特征,然后用長短期記憶網絡(LSTM)抽取實體,用卷積神經網絡(CNN)抽取關系;Miwa和Bansal用一個端到端的模型抽取的實體,依賴樹用來確定關系。這兩個模型首先識別實體,然后為每一對可能抽取的實體選擇一個語義關系,在這種情況下,RC分類器的精度相對較低,但召回率較高,因為它被許多屬于其他種類的對所誤導;同時,有些模型只能抽取出有限的目標關系。鄭先生等人把聯合抽取問題轉化成標注問題,用一個統一的標注方案標注實體和關系標簽,利用端到端的模型來解決這個問題;然而,在這個模型中,每一個實體在每個句子中都被限制只涉及一個關系。Katiyar和Cardie也用Bi-LSTM抽取實體,并添加一個注意力機制抽取關系,該模型假定一個實體只能與句子中的一個前置實體相關,這兩個模型(部分)忽略了與一個實體相關聯的多個關系;在這種情況下,RC任務執行的精度相對較高,但召回率較低,因為RC的候選范圍是有限的
因此,現有的聯合模型不僅在不實用的約束下抽取有限的關系(一句話中只有一個關系,一個實體只關聯到一個前置實體),或簡單地產生太多的候選人進行RC分類(所有可能的實體對關系)。深入的調查表明,主要原因在于他們忽視多三元組的影響,這在現存的大型語料庫中很常見。另一方面,模型認為,每一個實體對都有某一種關系,在這種情況下,大量的對需要被扔到一個叫做“其他”的類中,但是“其他”的特性在分類器訓練中沒有學到,因此,非預期的關系混淆了分類器,從而可能無法正確地檢測/選擇多三元組的目標關系。
發明內容
有鑒于此,本發明的目的在于提出一種基于實體關系聯合抽取模型的多三元組抽取方法,用于對句子中的多三元組進行有效抽取。
基于上述目的本發明提供的一種基于實體關系聯合抽取模型的多三元組抽取方法,其特征在于包括以下步驟:
獲取文本,對目標文本進行分句處理,并對句子中的每個單詞進行標記;
建立實體關系聯合抽取模型;
對所述實體關系聯合抽取模型進行訓練;
根據所述實體關系聯合抽取模型進行三元組抽取。
所述對句子中的每個單詞進行標記包括對句子中的每個單詞進行位置、類型、是否涉及關系三部分進行標記。
所述關系抽取模型包括用于將具有單一語義特征(1-hot)表示的單詞轉換為嵌入向量的嵌入層、用于對輸入句子進行編碼的Bi-LSTM層和用于解碼的CRF層。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810993387.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種命名實體識別方法及裝置
- 下一篇:一種中文零代詞消解方法及系統





