[發明專利]一種基于zero-shot無監督實體關系抽取方法有效
| 申請號: | 201910790569.5 | 申請日: | 2019-08-26 |
| 公開(公告)號: | CN110555083B | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 趙青;王丹;馮韋瑋;杜金蓮;付利華 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 zero shot 監督 實體 關系 抽取 方法 | ||
一種基于zero?shot無監督實體關系抽取方法屬于計算機領域,通過提取文本數據中的三元組特征和領域知識圖譜中的實體關系類型特征,并計算它們之間的相似度來判斷實體關系類別,從而減少傳統實體關系抽取方法對人工標注的依賴,并提高實體關系抽取的準確率。方法包括:數據預處理、特征提取、訓練關系抽取網絡模型和實體關系分類器。本方法將采用善于捕捉句子信息的卷積神經網絡模型來分別提取三元組和關系類型特征,最后使用softmax預測實體關系類型標簽。在模型構建過程中,可以利用稀疏標記的語料庫作為訓練集,在測試過程中也可以利用與訓練過程中相同的參數來預測未標注三元組的類型。
技術領域
本發明屬于計算機領域,涉及一種基于zero-shot無監督實體關系抽取方法。
背景技術
在如今的大數據時代,由于數據的增長速度快,類型多樣化,使得信息過載問題日益嚴重,因此如何快速、準確的獲取所需的重要信息是如今面臨的主要問題。信息抽取技術是通過從自然語言文本中抽取指定類型的實體、關系、事件等事實信息來提取出文本中所包含的重要信息。實體關系抽取作為信息抽取技術中一個重要的子任務,主要對句子或文本中概念之間的關系進行識別和分類,同時,它也是許多自然語言處理領域任務的基礎,例如機器翻譯、問答系統和文本挖掘等,且對于領域知識圖譜的構建也起到了重要的作用。因此,實體關系抽取任務一直受到全世界研究人員的極大關注,以及在ACL(Association forComputational Linguistics)等重要會議上提出了大量的研究。
目前關系抽取的方法主要分為有監督的學習方法和無監督的學習方法。其中有監督的學習方法是最常用的,它主要通過構造大量的人工特征并結合分類器來對實體關系進行分類。例如,陳鵬提出一種基于凸組合核函數的中文領域實體關系抽取方法,并在600篇旅游領域的語料上進行實驗,F值達到了62.9。但是,這種方法對專家知識的依賴度較高,并且人工的特征選擇和設計耗時耗力,因此,此方法對于小規模數據來說效果較好,但不適用于大規模數據。
隨著深度學習在各個領域的迅速發展,在實體關系抽取任務中的應用也越來越多,相比較傳統有監督的學習方法,深度學習可以通過將預訓練的詞嵌入表示輸入到模型中來自動學習文本特征,從而降低人工成本。例如,2019年,Huiwei Zhou等人所著論文“Knowledge-guided convolutional networks for chemical-disease relationextraction”,利用一種基于門控制的卷積神經網絡分別提取疾病和藥物相關的上下文特征,來自動抽取英文數據中的疾病與藥物之間的關系。
以上的方法雖然都可以完成實體關系抽取任務,但是現有的實體關系抽取方法還存在以下挑戰:(1)在很多領域中,實體之間的關系觸發詞不僅可以通過實體對附近的動詞來描述,也可以通過句子中的形容詞或副詞描述。(2)由于我國信息技術起步較晚,在大多數領域中都缺乏大規模完整標注的語料庫,例如醫療領域。基于以上局限性提出一種基于zero-shot的無監督實體關系抽取方法,通過計算句子中的每個詞向量與實體對之間的語義關系來找出實體對相關的重要信息,并通過與領域本體中提取出來的關系類型相匹配,來自動判斷出數據中實體關系的類別,不僅可以充分的提取出實體關系分類所需要的重要信息,也可以減少人工標注的成本。
發明內容
一種基于zero-shot的無監督實體關系抽取方法,該方法包括:
①提出了基于zero-shot的無監督實體關系抽取方法,該方法不僅可以通過Attention機制來提取出實體關系相關的重要信息,還可以通過與領域本體中提取出來的關系類型相匹配,來自動判斷出數據中實體關系的類別,
不僅能夠提升關系抽取的準確率,也可以降低人工標注成本。
②首先對預處理后的數據提取三元組特征,其中包含實體特征和關系特征,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910790569.5/2.html,轉載請聲明來源鉆瓜專利網。





