[發明專利]一種基于概率圖的實體聯合標注關系抽取方法和系統有效
| 申請號: | 202210004530.8 | 申請日: | 2022-01-04 |
| 公開(公告)號: | CN114298052B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 曹建軍;皮德常;翁年鳳;胥萌;丁鯤;袁震;江春 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/216;G06F18/241;G06N3/0464;G06N3/08 |
| 代理公司: | 江蘇瑞途律師事務所 32346 | 代理人: | 計璐 |
| 地址: | 210007 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 概率 實體 聯合 標注 關系 抽取 方法 系統 | ||
本發明公開了一種基于概率圖的實體聯合標注關系抽取方法和系統,屬于自然語言處理技術領域。包括進行特征提取;進行實體抽取:將實體抽取任務轉為序列標注任務,將所述序列輸入第一模型中得到第一輸出特征,對所述第一輸出特征激活后得到預測序列,通過設定的閾值得到實體的開始和結束位置;根據就近原則對主體和客體進行匹配,標記相近的實體頭部和尾部進行截取;進行關系分類:隨機抽取實體對,并根據所述第一模型的中間特征,生成第二輸出特征,將所述第二輸出特征輸入第二模型中得到對應分類關系。本發明考慮到兩個子任務之間的相關性,使得抽取任務的結果不過分依賴于實體抽取的結果,避免誤差累積的問題,以及關系重疊。
技術領域
本發明屬于自然語言處理技術領域,具體涉及一種基于概率圖的實體聯合標注關系抽取方法和系統。
背景技術
關系抽取是信息抽取的一個重要子任務,目的是從非結構化的文本中提取結構化的數據,關系抽取的主要任務是抽取出文本中的實體和實體之間存在的關系,這些關系以三元組(主語、關系、賓語)的形式表示,這對構建知識圖譜具有重要的作用。現有的主流關系抽取技術分為基于規則的關系抽取、有監督關系抽取、無監督關系抽取和半監督關系抽取。
基于規則的關系抽取首先基于規則和人工提取關系詞,隨后基于抽取的關系詞抽取關系句,然后基于人工總結的模板進行模板匹配來抽取三元組。基于規則的關系抽取主要還是通過人工定義的一些抽取規則從文章中抽取三元組信息,重點是如何定義規則。與深度學習關系抽取相比,基于規則的關系抽取簡單實用,無需訓練,但是識別精度不穩定,容易受到特殊實體的影響,局限于特定領域。
監督學習的關系集合通常是確定的,有監督的關系抽取將任務當作分類問題,設計有效的特征進行訓練,然后進行預測。有監督的關系抽取是目前研究的主流方法,獲得的效果也是最好的,但是需要大量的訓練數據和人工標注的語料。
半監督學習一般利用少量的標注信息作為種子模板,將已有的知識庫對應到豐富的非結構化數據中,從而生成大量的訓練數據,但是生成的訓練數據無法保證訓練數據的質量,容易引入大量的噪聲,并且在整個任務的pipeline上會產生誤差的傳播和累積,影響后續關系抽取的精度。
無監督關系抽取一般利用語料中存在的大量冗余信息做聚類,根據類簇確定實體之間的關系。但由于聚類方法本身就存在難以描述關系和低頻實例召回率低的問題,因此無監督學習一般難以得到很好的抽取效果。
在現有技術中,大多將關系抽取看作是串聯的任務,即傳統流水線的方法先進行實體識別,然后為每一對實體預測關系,這種方式使得任務相對簡單且分工明確,但是存在一系列問題:兩個任務的解決過程中沒有考慮到兩個子任務之間的相關性,從而導致關系抽取任務的結果嚴重依賴于實體抽取的結果,導致誤差累積的問題。對于關系重疊的問題,串聯方式無法提供較好的解決方案。
發明內容
技術問題:針對上述問題,本發明提供一種基于概率圖的實體聯合標注關系抽取方法和系統,本發明主要是利用概率圖的思想,將實體關系建模為從實體到關系的映射,解決了一個句子中多個關系之間實體重合的問題和一個關系中多個實體對重合的問題,避免誤差累積,以及關系重疊的問題。
技術方案:第一方面,本發明提供一種基于概率圖的實體聯合標注關系抽取方法,包括:
接收待進行實體聯合標注關系抽取的文本;
進行特征提取:利用預訓練的BERT編碼器生成所述文本詞嵌入,對所述詞嵌入進行字詞混合編碼及位置編碼,提取文本特征;
進行實體抽取:將實體抽取任務轉為序列標注任務,將所述序列輸入第一模型中得到第一輸出特征,對所述第一輸出特征激活后得到預測序列,通過設定的閾值得到實體的開始和結束位置;根據就近原則對主體和客體進行匹配,標記相近的實體頭部和尾部進行截取;其中,所述第一模型包括依次連接的第一網絡、第二網絡和第三網絡;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210004530.8/2.html,轉載請聲明來源鉆瓜專利網。





