[發明專利]基于主動學習的文本關系抽取方法、電子設備及存儲介質有效
| 申請號: | 202310692938.3 | 申請日: | 2023-06-13 |
| 公開(公告)號: | CN116431757B | 公開(公告)日: | 2023-08-25 |
| 發明(設計)人: | 袁得崳;葉乃夫;李欣;孫海春;羅婷;倪培峰;張煒琛;于偉 | 申請(專利權)人: | 中國人民公安大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F40/216;G06F40/295;G06F40/30;G06N3/045;G06N3/0455;G06N3/0442;G06N3/0464;G06N3/047;G06N3/048;G06N3/091 |
| 代理公司: | 北京鍾維聯合知識產權代理有限公司 11579 | 代理人: | 黃利萍 |
| 地址: | 100045 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 主動 學習 文本 關系 抽取 方法 電子設備 存儲 介質 | ||
本發明提供了一種基于主動學習的文本關系抽取方法、電子設備和存儲介質,方法包括:獲取任一訓練樣本d中的初始實體集S0supgt;d/supgt;;獲取S0supgt;d/supgt;subgt;i/subgt;的關系類別概率集P0supgt;d/supgt;subgt;i/subgt;;獲取S0supgt;d/supgt;subgt;i/subgt;對應的分類價值V0supgt;d/supgt;subgt;i/subgt;=ln(P01supgt;d/supgt;subgt;i/subgt;/(P02supgt;d/supgt;subgt;i/subgt;+σ0supgt;d/supgt;subgt;i/subgt;)),如果V0supgt;d/supgt;subgt;i/subgt;>0,則賦予S0supgt;d/supgt;subgt;i/subgt;第一標簽,如果V0supgt;d/supgt;subgt;i/subgt;<0,則賦予S0supgt;d/supgt;subgt;i/subgt;第二標簽;對具有標簽的訓練樣本d中的冗余實體進行過濾處理,得到過濾處理后的訓練樣本d;基于過濾處理后的H個訓練樣本,對初始文本關系抽取模型進行訓練,得到目標文本關系抽取模型;利用所述目標文本關系抽取模型對需要抽取實體關系的文本中的實體關系進行抽取。本發明能夠提高文本關系抽取的效果。
技術領域
本發明涉及計算機技術領域,特別是涉及一種基于主動學習的文本關系抽取方法、電子設備及存儲介質。
背景技術
文本關系抽取作為自然語言處理的一項重要任務,能夠從文本數據中識別出結構化的要素數據,實現從文本數據中抽取人員相關命名實體,通過分布式處理技術實現將自然語言描述的文本數據快速進行結構化處理,形成可以被計算機讀懂和理解的知識信息。在神經網絡中關系抽取無需考慮特征工程方面的問題。現階段在文本關系抽取任務中,使用的數據集的質量會影響到深度學習模型的效果。此外,神經網絡的模型瓶頸是限制文本關系抽取準確性的重要因素。
當前,通常采用詞性標注的方法對文本進行預處理,獲得標簽數據。使用詞向量預處理模型,將標簽數據轉化為詞向量并輸入神經網絡訓練模型中。在關系抽取任務中主流的神經網絡模型包括卷積神經網絡(CNN)、循環神經網絡(RNN)、長短記憶遞歸神經網絡(LSTM),采用注意力機制(Attention?Mechanism)對文本特征進行提取。特征提取后經Softmax函數進一步權重語義特征,最終輸出實體關系對。
當前文本關系的抽取的難點包括:面對復雜的文本實體數據,如何對文本實體樣本的價值進行衡量和科學化的表示,并能夠實現高低價值樣本的分類。以及如何提高領域文本關系抽取準確率和效率,降低噪聲數據的影響。
發明內容
針對上述技術問題,本發明采用的技術方案為:
本發明實施例提供一種基于主動學習的文本關系抽取方法,所述方法包括如下步驟:
S100,獲取任一訓練樣本d中的初始實體集S0d={S0d1,S0d2,……,S0di,……,S0dmd}和關系類別集Rd={Rd1,Rd2,……,Rdj,……,Rdnd},S0di為S0d中的第i個實體,i的取值為i到md,md為訓練樣本d中的實體數量,Rdj為Rd中的第j個關系類別,j的取值為1到nd,nd為訓練樣本d中的關系類別的數量;d的取值為1到H,H為訓練樣本的數量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民公安大學,未經中國人民公安大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310692938.3/2.html,轉載請聲明來源鉆瓜專利網。





