[發明專利]關系抽取方法、裝置、設備及可讀存儲介質有效
| 申請號: | 202210228412.5 | 申請日: | 2022-03-10 |
| 公開(公告)號: | CN114328978B | 公開(公告)日: | 2022-05-24 |
| 發明(設計)人: | 毛震東;張勇東;付藝碩;高杰;徐本峰 | 申請(專利權)人: | 合肥綜合性國家科學中心人工智能研究院(安徽省人工智能實驗室) |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 高川 |
| 地址: | 230000 安徽省合肥市望江西路5089號*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關系 抽取 方法 裝置 設備 可讀 存儲 介質 | ||
1.一種關系抽取方法,其特征在于,所述方法包括:
獲取ERM預訓練損失函數;
基于關系種類、元關系數量和元關系的向量維度,對第二關系矩陣進行拆分,得到第三關系矩陣和第四關系矩陣,其中,所述關系種類、所述元關系數量、所述元關系的向量維度和所述第二關系矩陣是預先設定的;
對所述第三關系矩陣和所述第四關系矩陣進行處理,得到關系向量合集;
對所述關系向量合集進行組合,得到第一關系矩陣;
將所述第一關系矩陣、所述第三關系矩陣、所述第四關系矩陣和關系信息輸入到函數中,得到預測關系公式,其中,所述關系信息是所述ERM預訓練損失函數中包含的;
接收用戶輸入的自然語言數據;
輸入所述自然語言數據到第一語言模型中,得到實體關系數據,其中,所述實體關系數據用于表征所述自然語言數據中的實體關系,所述第一語言模型是先以實體關系匹配ERM和掩碼語言模型MLM作為預訓練任務對預定的第二語言模型進行訓練得到第三語言模型,再利用預測關系公式對所述第三語言模型進行訓練后得到的。
2.如權利要求1所述的方法,其特征在于,所述接收用戶輸入的自然語言數據之前,包括:
獲取ERM預訓練樣本;
基于所述ERM預訓練樣本、所述ERM預訓練損失函數,對所述第二語言模型進行訓練,得到所述第三語言模型;
基于所述預測關系公式,對所述第三語言模型進行訓練,得到所述第一語言模型。
3.如權利要求2所述的方法,其特征在于,所述獲取ERM預訓練樣本,包括:
獲取預訓練數據;
分割所述預訓練數據,得到第一樣本;
抽取出所述第一樣本中包含的實體對,根據所述實體對之間的關系確定關系標簽,其中,所述實體對包括第一實體和第二實體;
在所述第一實體兩側分別插入第一特殊標簽和第二特殊標簽,所述第二實體兩側分別插入第三特殊標簽和第四特殊標簽,得到第二樣本,其中,所述第一特殊標簽、所述第二特殊標簽、所述第三特殊標簽和所述第四特殊標簽用于對所述實體對進行標記;
按[CLS]所述第二樣本[SEP]所述關系標簽[SEP]進行組合,得到所述ERM預訓練樣本,其中,所述[CLS]放在首位用于分類,所述[SEP]放在中間用于分隔。
4.如權利要求2所述的方法,其特征在于,所述獲取ERM預訓練損失函數,包括:
獲取樣本向量,其中,所述樣本向量是對所述ERM預訓練樣本中的一部分進行編碼后得到的;
獲取第一隱藏層,其中,所述第一隱藏層是第一特殊標簽經過所述第二語言模型編碼后得到的,所述第一特殊標簽是所述ERM預訓練樣本中包含的;
獲取第二隱藏層,其中,所述第二隱藏層是第三特殊標簽經過所述第二語言模型編碼后得到的,所述第三特殊標簽是所述ERM預訓練樣本中包含的;
組合所述第一隱藏層和所述第二隱藏層,得到所述ERM預訓練樣本中的實體對之間的關系信息;
將所述關系信息輸入線性層,得到預測得分;
將所述預測得分輸入回歸函數,得到預測概率;
基于所述樣本向量和所述預測概率,得到所述ERM預訓練損失函數。
5.如權利要求1所述的方法,其特征在于,所述對所述第三關系矩陣和所述第四關系矩陣進行處理,得到關系向量合集,包括:
將所述第三關系矩陣的每一行乘以所述第四關系矩陣,得到所述關系向量合集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥綜合性國家科學中心人工智能研究院(安徽省人工智能實驗室),未經合肥綜合性國家科學中心人工智能研究院(安徽省人工智能實驗室)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210228412.5/1.html,轉載請聲明來源鉆瓜專利網。





