[發明專利]一種基于多實例協同對抗訓練的遠程監督關系抽取方法有效
| 申請號: | 202011137036.6 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN112016293B | 公開(公告)日: | 2021-01-19 |
| 發明(設計)人: | 莊越挺;湯斯亮;肖俊;陳濤;吳飛;李曉林;譚熾烈;蔣韜 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F40/20 | 分類號: | G06F40/20;G06F40/295;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 傅朝棟;張法高 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 實例 協同 對抗 訓練 遠程 監督 關系 抽取 方法 | ||
1.一種基于多實例協同對抗訓練的遠程監督關系抽取方法,其特征在于,包括以下步驟:
S1:獲取由句子實例構成的訓練數據,并通過遠程監督使其對齊到知識庫,將含有相同實體對的句子實例構建成包,每個包中的所有句子實例具有相同的關系標簽;
S2:針對S1中構建的每個包,基于多實例學習框架中蘊含的注意力信號,對包內所有句子實例的特征進行加權,獲得包級特征并計算交叉熵損失約束,同時根據注意力信號確定潛在的包內噪聲實例;
S3:針對S1中構建的每個包,在其包級特征的對抗方向上添加第一擾動向量,使擾動向量添加前后多實例學習框架輸出的關系標簽變化量最大,再計算在第一擾動向量添加后每個包的局部光滑度約束;
S4:針對S1中構建的每個包,在輸入層向每個包內噪聲實例添加虛擬對抗方向上的第二擾動向量,使擾動向量添加前后多實例學習框架輸出的條件概率變化量最大,再計算第二擾動向量添加后每個包的局部平滑性約束;
S5:對S2中得到的交叉熵損失約束、S3中得到的局部光滑度約束和S4中得到的局部平滑性約束進行加權求和,作為協同多實例協同對抗學習的綜合約束;以最小化所述訓練數據中所有包的綜合約束平均值為目標,利用隨機梯度下降對多實例學習框架進行不斷優化直至收斂,得到優化后的最終模型參數;
S6:將待預測的句子實例以包的形式輸入基于所述最終模型參數的多實例學習框架中,輸出包內句子實例的關系標簽。
2.如權利要求1所述的基于多實例協同對抗訓練的遠程監督關系抽取方法,其特征在于,所述S2的具體實現步驟包括:
S21:針對S1中構建的每個包,將每個包內的句子實例分別經過編碼器,得到對應的特征向量;再利用多實例學習框架基于包內的關系標簽計算出每個句子實例的注意力分數,以句子實例的注意力分數為該句子實例的特征向量權重值,分別對每個包內所有句子實例的特征向量進行加權求和,得到每個包的包級特征;
S22:根據預設的分數閾值,將每個包內注意力分數低于分數閾值的所有句子實例提取為需要額外進行學習的包內噪聲實例;
S23:針對每個包,基于其對應的包級特征
式中:
3.如權利要求2所述的基于多實例協同對抗訓練的遠程監督關系抽取方法,其特征在于,所述S3的具體實現步驟包括:
S31:針對S1中構建的每個包,在其包級特征的不同方向上添加擾動向量且擾動向量的長度均等于第一鄰域半徑,找到添加擾動向量后多實例學習框架輸出的關系標簽最偏離關系標簽
S32:根據確定的對抗方向上的第一擾動向量
其中: 表示多實例學習框架在模型參數
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011137036.6/1.html,轉載請聲明來源鉆瓜專利網。





