[發明專利]一種基于相關系數熵的單示例單標簽遠程監督實體關系標注方法有效
| 申請號: | 202011121160.3 | 申請日: | 2020-10-20 |
| 公開(公告)號: | CN112417872B | 公開(公告)日: | 2022-08-05 |
| 發明(設計)人: | 駱祥峰;顧河建;陳雪;斯龍軍 | 申請(專利權)人: | 上海大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295 |
| 代理公司: | 上海上大專利事務所(普通合伙) 31205 | 代理人: | 何文欣 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 相關系數 示例 標簽 遠程 監督 實體 關系 標注 方法 | ||
本發明公開了一種基于相關系數熵的單示例單標簽遠程監督實體關系標注方法,具體步驟包括:(1)基于標準數據集構造實體關系庫和示例庫;(2)利用BERT構造關系向量庫和示例向量庫;(3)計算示例的詞與關系的相關系數,構造相關系數庫;(4)計算基于相關系數的示例與關系的熵,構造相關系數熵庫;(5)基于相關系數庫和示例向量庫構造相關系數向量庫;(6)基于相關系數熵庫和相關系數向量庫構造相關系數熵向量庫;(7)計算相關系數熵向量和關系向量的余弦相似度得到相似分數值;(8)遍歷相似分數值,選取最高分數作標注決策。本發明所述方法通過相關系數熵進行單示例單標簽實體關系標注,能夠提高標注準確性并減少噪音數據。
技術領域
本發明涉及一種自然語言處理技術中的實體關系標注方法,具體涉及一種基于相關系數熵的單示例單標簽遠程監督實體關系標注方法。
背景技術
當面對大量無標簽數據時,有監督的方法需要消耗大量的人力,無法滿足需求,因此,基于遠程監督的數據標注方法應運而生。2009年,Mintz首次提出將遠程監督方法應用到關系抽取任務中,即通過數據自動對齊遠程知識庫來實現開放域中大量無標簽數據的自動標注。但用遠程監督進行數據標注時,仍存在兩個非常嚴峻的問題:由于遠程監督的強假設條件,導致大量關系數據被錯誤標記,從而導致訓練數據存在大量噪聲問題;以及利用NLP工具進行特征提取所帶來的特征提取誤差傳播問題。其中,針對噪聲問題,2010年Surdeanu提出了多示例多標簽學習方法以及2016年Lin提出了Attention機制等,都有效減弱了遠程監督錯誤標簽對關系抽取的影響。但基于多示例多標簽學習方法所標注的數據,后續模型仍需要花費大量精力處理訓練數據的噪音,Attention機制則在多示例多標簽標注的數據基礎之上,通過權重來減少訓練數據噪聲的影響,但需要花費大量的時間進行訓練,從而得到一個相對最優的權重狀態。
發明內容
為了解決對傳統的遠程監督由于強假設條件導致訓練數據存在大量噪聲的問題,本發明的目的在于克服已有技術存在的不足,提供一種基于相關系數熵的單示例單標簽遠程監督實體關系標注方法,通過相關系數熵進行單示例單標簽實體關系標注,能夠提高標注準確性并減少噪音數據。
為達到上述發明創造目的,本發明采用如下技術方案:
一種基于相關系數熵的單示例單標簽遠程監督實體關系標注方法,包括以下步驟:
(1)基于標準數據集,構造實體關系庫L(labels)和示例庫S(Sentences);
(2)利用BERT構造關系向量庫Er和示例向量庫Esw;
(3)計算示例的詞與關系的相關系數,構造相關系數庫
RWCC(Relations and Words Correlation Coefficientbase);
(4)計算基于相關系數的示例與關系的熵,構造相關系數熵庫
CCE(Correlation Coefficient Entropy base);
(5)基于相關系數庫和示例向量庫,構造相關系數向量庫
CCV(Correlation Coefficient Vectors base),作為局部關聯表示;
(6)基于相關系數熵庫和相關系數向量庫,構造相關系數熵向量庫
CCEV(Correlation Coefficient Entropy Vectors),作為全局關聯表示;
(7)計算相關系數熵向量和關系向量的余弦相似度得到相似分數值;
(8)遍歷相似分數值,選取最高分數作標注決策。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大學,未經上海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011121160.3/2.html,轉載請聲明來源鉆瓜專利網。





