[發明專利]關系抽取模型的建立方法以及關系抽取方法有效
| 申請號: | 202011309475.0 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112364166B | 公開(公告)日: | 2022-02-01 |
| 發明(設計)人: | 周玉 | 申請(專利權)人: | 北京中科凡語科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 北京庚致知識產權代理事務所(特殊普通合伙) 11807 | 代理人: | 韓德凱;李曉輝 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關系 抽取 模型 建立 方法 以及 | ||
1.一種關系抽取模型的建立方法,其特征在于,包括:
獲取標注后的文本樣本集,所述標注后的文本樣本集包括多個標注出實體、實體類別以及關系類別的文本樣本;
對標注出實體、實體類別以及關系類別的每個文本樣本進行預處理;
抽取出標注后的每個文本樣本中包含相同實體對的多個語句作為一個語句包,獲取每個文本樣本的語句包組,每個文本樣本的語句包組至少包括一個語句包;
至少基于預先構建的文本樣本集的每個文本樣本的實體有向無環圖以及標注出的所述文本樣本集的每個文本樣本的實體,獲取每個實體的候選實體類別以及候選實體類別的所有父實體類別;至少基于預先構建的文本樣本集的每個文本樣本的關系有向無環圖以及每個實體的候選實體類別以及候選實體類別的所有父實體類別,獲取實體對的候選關系以及候選關系的所有父關系;
至少基于每個實體的候選實體類別以及候選實體類別的所有父實體類別,以及所述文本樣本集的每個文本樣本的每個實體的標注出的實體類別,至少使用TextCNN獲取分層多分類損失;至少基于實體對的候選關系以及候選關系的所有父關系,以及每個文本樣本的語句包組,至少使用分層注意力網絡獲取分層注意力損失;以及
基于所述分層多分類損失以及所述分層注意力損失構建關系抽取模型,以標注出的關系類別作為訓練目標對所述關系抽取模型進行訓練。
2.根據權利要求1所述的關系抽取模型的建立方法,其特征在于,對標注出實體、實體類別以及關系類別的每個文本樣本進行預處理,包括:
基于知識圖譜的實體概念結構將標注后的文本樣本集的每個文本樣本的樣本空間的實體類別編碼為實體類別向量,基于知識圖譜的關系概念結構將標注后的文本樣本集的每個文本樣本的樣本空間的關系編碼為關系向量;獲取所述文本樣本集中的每個文本樣本的詞向量。
3.根據權利要求1或2所述的關系抽取模型的建立方法,其特征在于,文本樣本的實體、實體類別以及關系類別的標注,至少通過對文本樣本集中的每個文本樣本進行命名實體識別,從而標注出每個文本樣本的實體、實體類別以及關系類別。
4.根據權利要求1或2所述的關系抽取模型的建立方法,其特征在于,所述預先構建的文本樣本集的每個文本樣本的實體有向無環圖基于知識圖譜中的實體概念結構構造,所述預先構建的文本樣本集的每個文本樣本的關系有向無環圖基于知識圖譜中的關系概念結構構造。
5.根據權利要求2所述的關系抽取模型的建立方法,其特征在于,所述實體類別向量優選為one-hot向量,所述關系向量優選為one-hot向量,所述詞向量優選為GloVe向量。
6.一種關系抽取方法,其特征在于,使用權利要求1至5中任一項所述的建立方法建立的關系抽取模型進行關系抽取,包括:
對目標文本進行實體識別,識別出所述目標文本的至少一個實體;以及
使用所述關系抽取模型對進行了實體識別后的所述目標文本進行關系抽取,將條件概率最大的關系作為所述目標文本的實體對關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科凡語科技有限公司,未經北京中科凡語科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011309475.0/1.html,轉載請聲明來源鉆瓜專利網。





