[發明專利]一種基于PGAT和FTATT的遠程監督關系抽取方法有效
| 申請號: | 202011528527.3 | 申請日: | 2020-12-22 |
| 公開(公告)號: | CN112579792B | 公開(公告)日: | 2023-08-04 |
| 發明(設計)人: | 于亞新;包健;王亞龍;吳曉露;喬勇鵬;劉樹越 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F16/28;G06F40/211;G06F40/253;G06F40/284;G06F40/30;G16H50/70;G06N3/042;G06N3/0442;G06N3/045;G06N3/0464 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 梁焱 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 pgat ftatt 遠程 監督 關系 抽取 方法 | ||
1.一種基于PGAT和FTATT的遠程監督關系抽取方法,其特征在于,所述PGAT為Piecewise?Graph?Attention?Network,分段圖注意力網絡;所述FTATT為Fine-tuningAttention?Mechanism,微調注意力機制;該方法包括以下步驟:
步驟1:獲取NYT數據集,根據遠程監督關系抽取條件假設,將NYT數據集中包含相同實體對的句子劃分在一個包中;
步驟2:獲取每個包中句子的詞語向量表示;
步驟3:根據詞語向量表示,抽取包中每個句子的特征向量表示;
步驟3-1:基于Bi-LSTM抽取句子的序列特征,將句子的詞語向量表示w送入Bi-LSTM網絡,獲取句子的序列特征;
步驟3-2:融合句子的序列特征,基于分段圖注意力網絡PGAT抽取句子的句法結構特征;
步驟4:采用微調注意力機制FTATT對同一包中的不同句子分配權重;
步驟4-1:利用注意力機制ATT求出各包中不同句子的初始的權重系數;
步驟4-2:對初始的權重系數進行微調,得到新的權重系數;
步驟5:將包中各句子的特征向量與句子的權重系數加權求和,獲得該包的特征向量;
步驟6:根據包的特征向量,對包中實體對進行關系分類;
所述步驟3-2包括以下步驟:
步驟3-2-1:對輸入的句子進行句法依存分析,得到該句子中詞與詞之間具有依存關系的依存句法樹;
步驟3-2-2:根據句子中標注的實體,將依存句法樹截為三段:實體之間的最短依存路徑樹及兩個實體各自的子樹;
步驟3-2-3:將步驟3-2-2得到的三段依存句法樹分別用依存矩陣表示,其中依存矩陣主對角線上的值均為1,除此之外,句子中的詞與該詞以外的其他詞在樹結構上有依存關系的,在依存矩陣上對應的值記為1,否則記為0;
步驟3-2-4:將三段依存句法樹的依存矩陣分別送入圖注意力網絡,抽取句子的句法結構特征,分別得到實體最短依存路徑特征向量和兩個實體子樹特征向量;
步驟3-2-5:將三個子樹特征向量結合送入前饋神經網絡FFNN,得到句子的最終特征向量。
2.根據權利要求1所述的基于PGAT和FTATT的遠程監督關系抽取方法,其特征在于,所述步驟2中所述詞語向量表示的獲取方法為:
通過Word2vec模型獲取句子中詞語的詞嵌入;
將從當前單詞到實體對中兩個實體的相對距離的組合作為當前單詞的位置嵌入;
將詞嵌入和位置嵌入結合,作為當前詞的詞語向量表示。
3.根據權利要求1所述的基于PGAT和FTATT的遠程監督關系抽取方法,其特征在于,所述步驟3-2-4中圖注意力網絡對送入其中的依存矩陣執行如下步驟:
首先,計算詞與詞之間相互影響的重要程度;
然后,根據詞與詞之間相互影響的重要程度,計算詞與詞之間的注意力權重系數;
最后,將詞在依存矩陣中所有相鄰詞的序列特征向量與對應的相鄰詞的權重系數進行加權求和,得到該詞的最終特征向量;所述相鄰詞為矩陣中值為1對應的詞。
4.根據權利要求1所述的基于PGAT和FTATT的遠程監督關系抽取方法,其特征在于,所述步驟4-1包括以下步驟:
計算輸入的句子和關系之間匹配的分數;
根據句子和關系的匹配分數,求得注意力機制下用于加權求和的句子權重系數。
5.根據權利要求1所述的基于PGAT和FTATT的遠程監督關系抽取方法,其特征在于,所述步驟4-2中通過閾值θ對初始的權重系數αi進行微調得到新的權重系數αi_new,微調公式如下:
其中n為包中句子總個數,k代表包中第k個句子。
6.根據權利要求5所述的基于PGAT和FTATT的遠程監督關系抽取方法,其特征在于,所述閾值θ為超參數,設置為0.100。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011528527.3/1.html,轉載請聲明來源鉆瓜專利網。





