[發明專利]利用拓撲依存關系多視角圖編碼器的論元抽取方法有效
| 申請號: | 202110594279.0 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113222119B | 公開(公告)日: | 2022-09-20 |
| 發明(設計)人: | 羅森林;祁佳俊;吳舟婷;周妍汝;董勃 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06F40/284;G06F16/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 拓撲 依存 關系 視角 編碼器 抽取 方法 | ||
本發明涉及利用拓撲依存關系多視角圖編碼器的論元抽取方法,屬于自然語言處理與機器學習領域。主要為了解決采用單類型特征建模提取論元時,造成多種角色的論元特征表示易受到與候選論元無語義關聯信息的干擾,導致多角色論元的特征表示不準確的問題。本發明首先利用BERT預訓練模型對數據集實現文本嵌入,得到文本嵌入向量,觸發詞類別嵌入向量和實體類別嵌入向量;然后對候選論元、實體類別和觸發詞之間的拓撲關系進項建模,構建多視角圖信息網絡;最后利用圖卷積網絡分別對多視角圖編碼,聚合得到候選論元多視角圖嵌入向量,經過SoftMax全連接層從候選論元中分類抽取事件論元。在ACE2005英文語料上進行實驗,結果表明本發明能達到較好的論元抽取效果。
技術領域
本發明涉及利用拓撲依存關系多視角圖編碼器的論元抽取方法,屬于自然語言處理與機器學習領域。
背景技術
論元抽取的目標是抽取事件句中相對應的論元實體,并為其標注時間、地點、人物等論元角色,從而實現包含事件信息的無結構文本的結構化輸出。
在論元抽取任務中,一種觸發詞類別對應幾種特定角色的論元,某一種論元由特定類別的實體來表示,同時論元與論元之間又通過句法結構相聯系,由此可見,候選論元、實體類別和觸發詞之間存在一定的拓撲關系。
候選句中觸發詞類別、實體類別、候選論元等多類型特征均能對論元的準確抽取提供有效的指導,根據特征構建方式不同,現有論元抽取方法主要分為基于向量拼接的方法、基于序列建模的方法和基于拓撲結構構建的方法。
1.基于向量拼接的方法
基于向量拼接的論元抽取方法利用不同類型特征向量拼接的方式實現多類型特征構建。但該方法往往利用單類型特征向量直接引入或直接計算的方式構建特征,這種特征構建方式未考慮到句法結構對于論元分布的指導作用,使得對事件中的論元實體難以做出直接準確的定位,導致候選實體中角色標注不準確的問題。
2.基于序列建模的方法
基于序列建模的論元抽取方法通過序列模型構建的方式實現多類型特征融合。該方法利用的特征構建方式與上述向量拼接方法相同,直接計算單一類型特征向量來構建特征,使得難以直接準確定位事件的論元實體,最終導致實體角色標注不準確的問題。
3.基于拓撲結構的方法
基于拓撲結構構建的論元抽取方法主要研究不同類型特征之間拓撲結構的構建。該方法考慮到了拓撲結構信息對于指導論元抽取的有效性,但該方法只在候選論元之間構建了句法關系,未考慮到候選論元-觸發詞類別和候選論元-實體類別之間拓撲關系的構建,影響候選論元特征表示的準確性,導致對應多種角色的候選論元在進行特征建模時指導信息利用不足,論元識別和分類準確性低的問題。
綜上所述,現有方法往往僅考慮候選論元-候選論元之間依存關系的構建,常采用向量拼接或序列建模的方式引入觸發詞類別及實體類別信息,未考慮候選論元-觸發詞類別和候選論元-實體類別特征之間的拓撲關系構建,使得在具有相同共現詞的候選句中,采用單類型特征建模的論元抽取方法進行論元抽取時,會造成對應多種角色的論元特征表示易受到與候選論元無語義關聯信息的干擾,導致多角色論元的特征表示不準確,影響論元抽取效果。
發明內容
本發明的目的是針對采用單類型特征建模提取論元時,造成多種角色的論元特征表示易受到與候選論元無語義關聯信息的干擾,導致多角色論元的特征表示不準確的問題,提出了利用拓撲依存關系多視角圖編碼器的論元抽取方法。
本發明的設計原理為:首先,利用BERT預訓練模型對數據集實現文本嵌入;其次,通過構建多視角圖的方式對候選論元、觸發詞類別和實體類別三個類型特征之間的相關關系進行建模;然后,利用圖卷積網絡(GCN)對從不同角度構建的三個圖進行編碼,并得到候選論元的多視角圖嵌入向量;最后,經過Softmax全連接層分類抽取得到事件論元。
本發明的技術方案是通過如下步驟實現的:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110594279.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種圓形料場堆取料機
- 下一篇:一種文件處理方法、裝置、設備及存儲介質





