[發明專利]一種面向句子級別的關系抽取方法、設備及存儲介質在審
| 申請號: | 202210288286.2 | 申請日: | 2022-03-23 |
| 公開(公告)號: | CN114692637A | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 范垂欽;王家兵 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/211;G06F40/30;G06K9/62 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 王東東 |
| 地址: | 511458 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 句子 級別 關系 抽取 方法 設備 存儲 介質 | ||
1.一種面向句子級別的關系抽取方法,其特征在于,包括如下:
獲得一個句子,所述一個句子包括兩個實體,在每個實體的兩端分別插入特殊標記,輸入預訓練語言模型得到該句子每個詞的詞向量;
使用隨機初始化得到關系嵌入,分別與每個詞的詞向量采用點積注意力機制得到其相關程度,進一步得到句子的注意力表示集合,將該集合中的每個向量輸入二分類器得到預測結果,計算二分類損失;
基于注意力表示集合利用最大池化計算得到關系向量,利用平均池化得到句子向量,兩個實體向量,將上述四個向量進行拼接輸入多分類器獲得多分類損失;
將句子中的兩個實體按照預先設定概率進行掩藏,獲得另外一個句子S’;對另外一個句子重復上述步驟獲得二元損失和多元損失,進一步獲得兩個句子預測結果的一致性損失;
對二元損失、多元損失、一致性損失進行聯合訓練,當損失最小值時獲得關系抽取模型,實現關系抽取。
2.根據權利要求1所述的關系抽取方法,其特征在于,所述獲得一個句子,所述一個句子包括兩個實體,在每個實體的兩端分別插入特殊標記,具體為:
獲得一個句子S,在句子開頭插入特殊標記“[CLS]”,在第一個實體兩端插入特殊標記“#”,在第二個實體兩端插入特殊標記“$”。
3.根據權利要求1所述的關系抽取方法,其特征在于,使用隨機初始化得到關系嵌入,分別與每個詞的詞向量采用點積注意力機制得到其相關程度,進一步得到句子的注意力表示集合,具體為:
隨機初始化獲得關系嵌入,每一個關系嵌入分別與每個詞向量使用點積注意力機制得到相關程度;
公式中ei代表第i種關系的嵌入,hj代表第j個詞的詞向量,使用得到的相關程度對詞向量進行逐元素相乘,并將乘積相加得到句子的注意力表示集合V={v1,v2,…,vm};
4.根據權利要求1所述的關系抽取方法,其特征在于,將注意力表示集合中的每個向量輸入二分類器得到預測結果,計算二分類損失,具體為:
將注意力表示集合中每個向量分別輸入二分類器中,得到該關系存在的概率,隨后根據真實標簽使用交叉熵損失函數得到二元損失Lbin;
其中真實標簽根據如下規則生成:對于預定義關系集中的每個關系r,若存在該關系則標簽為1,否則標簽為0。
5.根據權利要求1所述的關系抽取方法,其特征在于,所述基于注意力表示集合利用最大池化計算得到關系向量,利用平均池化得到句子向量,兩個實體向量具體為:
句子向量按照如下公式獲得:
hcls=W0[tanh(h0)]+b0
兩個實體向量按照如下公式獲得:
關系向量按照如下公式獲得:
hv=W2[tanh(MaxPooling(V))]+b2
其中i,j分別是第一個實體的開始下標和結束下標,k,l分別是第二個實體的開始下標和結束下標。
6.根據權利要求1所述的關系抽取方法,其特征在于,所述設定概率小于0.5。
7.根據權利要求1所述的關系抽取方法,其特征在于,獲得兩個句子預測結果的一致性損失,其中一致性損失為:
和分別代表句子S和S’的多分類預測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210288286.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種雷火灸艾灸系統及方法
- 下一篇:一種便于更換刀具的鉆床





