[發明專利]一種實體關系的抽取方法、裝置、設備及存儲介質有效
| 申請號: | 202010058018.2 | 申請日: | 2020-01-16 |
| 公開(公告)號: | CN111274394B | 公開(公告)日: | 2022-10-25 |
| 發明(設計)人: | 黃媛;鄧蔚;李智星;林智敏;李子楊;王曉浪 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/211;G06F40/284;G06K9/62 |
| 代理公司: | 重慶輝騰律師事務所 50215 | 代理人: | 王海軍 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 關系 抽取 方法 裝置 設備 存儲 介質 | ||
本發明屬于自然語言處理領域,涉及一種實體關系的抽取方法、裝置、設備及存儲介質,所述方法包括獲取每條語料的句法信息并預處理,將預處理后的句法信息輸入到BERT模型中;獲取語料的序列特征向量和每個詞語的實值特征向量;利用詞性標注和句法分析,劃分出包含實體對的完整短句,利用詞向量模型將完整短句中單詞與實體的依存關系映射為實值向量;采用基于依存分析的單詞級別的注意力機制,獲取局部上下文語義特征向量;獲得實體對的平移距離特征向量,將各個特征向量進行融合,從而抽取出的實體關系的多粒度特征;將抽取出的多粒度特征輸入到分類器中進行分類。本發明能夠減少噪聲單詞和錯誤句法分析帶來的影響,提高了關系抽取的準確率。
技術領域
本發明屬于自然語言處理領域,尤其涉及一種基于多粒度表示和注意力機制的實體關系抽取方法、設備及存儲介質。
背景技術
隨著信息技術的快速發展和計算機的普及,各種各樣的信息在互聯網上迅猛增加。在信息爆炸的時代,如何從海量信息中快速準確地獲取用戶感興趣的信息已經成為亟待解決的問題。在這種背景下,信息抽取技術應運而生。實體關系抽取是信息抽取的關鍵技術之一,即給定一個句子和其中出現的實體對,實體關系抽取模型需要根據句子語義信息推測實體間的關系,從無結構的自然語言文本中抽取出格式統一的關系數據,建立多個實體之間廣泛的信息關聯,有助于建立領域本體,促進知識圖譜的構建。
經典的實體關系抽取方法主要分為有監督學習方法、半監督學習方法、無監督學習方法和開放式抽取這四大類。有監督的實體關系抽取主要分為基于特征和基于核函數的方法,Zhou等人利用SVM作為分類器,分別研究詞匯、句法和語義特征對實體語義關系抽取的影響。有監督方法需要手工標注大量的訓練數據,因此繼而提出基于半監督的Bootstrapping方法對實體之間的關系進行抽取。Hasegawa等人在ACL會議上首次提出基于無監督的關系抽取方法,該方法無需依存實體關系標注語料,而是首先根據實體對出現的上下文將相似度高的實體對聚為一類,然后選擇具有代表性的詞語來標記實體之間的關系。為了解決開放域中大量無標簽數據問題,開放式抽取方法被提出,又稱為遠程監督方法。該方法能避免針對特定關系類型人工構建語料庫,可以自動完成關系類型發現和關系抽取任務。它作出基本假設:若已知兩個實體存在某種語義關系,所有包含這兩個實體的句子都潛在地表達了它們之間的語義關系。遠程監督的關系抽取通過借助外部領域無關的實體知識庫(DBPedia、YAGO、Wikidata、FreeBase等)將高質量的實體關系實例映射到大規模文本中,根據文本對齊方法從中獲得訓練數據,然后使用監督學習方法來解決關系抽取問題。
隨著近年來深度學習在自然語言處理領域的發展,學者們逐漸將深度學習應用到實體關系抽取任務中。基于數據集標記量級的差異,深度學習的實體關系抽取分為有監督和遠程監督兩類。基于深度學習的有監督實體關系抽取方法能避免經典方法中人工特征選擇等步驟,減少并改善特征抽取過程中的誤差積累問題,實現自動學習句子特征。Zeng等人在2014年首次提出使用CNN進行關系分類;隨后RNN和LSTM網絡也用于實體關系抽取任務中,并且取得了很不錯的效果。基于深度學習的遠程監督關系抽取方法主要是在CNN、RNN和LSTM三種網絡的基礎上作出了改進,比如PCNN和多示例學習的融合方法、PCNN和注意力機制的融合方法等。
句法分析是自然語言處理中的關鍵技術之一,包含句法成分分析和依存分析,其基本任務是確定句子的句法結構或者句子中詞匯之間的依存關系,如并列、從屬、比較等。通過句法成分分析,就能夠分析出語句的主干,以及各成分間關系,摒棄句子中的噪聲詞語。目前大多的基于深度學習的關系抽取方法直接將最短依存路徑的句子作為輸入,不僅可能造成重要上下文單詞語義的缺失,也會帶來一定的錯誤積累問題,最終將導致實體識別的性能差、實體抽取準確率低。
發明內容
針對現有的實體關系抽取技術中存在的不足之處,本發明基于多粒度表示以及注意力機制,提出了一種實體關系的抽取方法、裝置、設備及存儲介質。
本發明解決上述技術問題所采用的技術方案包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010058018.2/2.html,轉載請聲明來源鉆瓜專利網。





