[發明專利]基于多語注意力機制的事件識別及分類方法及裝置有效
| 申請號: | 201711463578.0 | 申請日: | 2017-12-28 |
| 公開(公告)號: | CN108345583B | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 陳玉博;劉康;趙軍;劉健 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06N3/08 |
| 代理公司: | 北京市恒有知識產權代理事務所(普通合伙) 11576 | 代理人: | 郭文浩 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 機制 事件 識別 分類 方法 裝置 | ||
本發明涉及自然語言處理技術領域,具體涉及一種基于多語注意力機制的事件識別及分類方法及裝置,旨在為了解決單語特征識別效果不能滿足需求的問題,本發明的方法包括:將僅標注單語事件信息的數據映射為多語平行數據;將所述多語平行數據進行詞匯級別對齊,通過多語對齊關系得到同一事件在多種不同語言中的一致性表示;基于單語注意力模型獲取多語一致性信息;基于多語注意力模型獲取多語互補性信息;基于所述多語一致性信息和所述多語互補性信息進行聯合推理,通過非線性神經網絡判別模型輸出最終的識別結果。本發明可以提高事件的識別效果。
技術領域
本發明涉及自然語言處理技術領域,具體涉及一種基于多語注意力機制的事件識別及分類方法及裝置。
背景技術
隨著互聯網的大規模發展,信息的獲取變得越來越容易,人們幾乎無時無刻都會接觸涉及各個領域的海量信息,比如體育、娛樂、軍事等等領域的新聞。然而這些信息一般都是無序、雜亂、非結構的,并且存在一定程度的信息冗余。如何在計算機的輔助下,從海量信息中發現感興趣的事件是亟需解決的問題。事件識別(Event Identification)技術正是解決這一問題的有力手段。事件識別是事件抽取(Event Extraction)的一個獨立的子任務,主要研究如何從含有事件信息的非結構化文本中識別出用戶感興趣的事件及其類型。
一個事件由一個觸發詞(trigger)、一種事件類型(event type)和若干事件的參與者及其角色(arguments and roles)組成,其中事件的觸發詞是文本中最能指示事件發生的詞。事件抽取的目標是如何從描述事件的自然語言文本中抽取事件的上述各個成分,并以結構化的形式展現出來。例如,對于文本“He died in hospital.”,一個理想的事件抽取結果如表1所示。
表1:事件抽取示例
事件識別和事件抽取的不同之處在于,其只關注事件觸發詞和事件類型的識別,并不關注事件參與者及其角色。例如,對于上面的例子,事件識別的任務是識別出該句子描述了一個事件,該事件的觸發詞是“died”,事件類型是Die。
ACE(Automatic Context Extraction)評測比賽推動了這個領域的發展。該評測預定義了8大類、33小類的事件,每個類型的事件都有若干標注的實例。目前的主流技術是將事件識別轉化為詞分類的問題,然后利用句法分析器等工具抽取候選詞附近的信息構建特征向量,最后利用基于特征的分類器進行分類。圖1展示了現有方法的基本流程,分為訓練和測試兩個階段。訓練階段,對標注數據中的每個事件觸發詞,利用自然語言處理工具提取潛在有用的信息(詞形,詞性等),為該實例構建特征向量;將該特征向量和其事件類別對應起來,作為一個標注數據實例。最后利用所有的標注數據實例訓練分類模型,得到可用的分類器。測試階段,該方法將測試文本中的每個詞視為一個候選事件觸發詞,針對每個觸發詞提取特征構建特征向量,最后用訓練好的分類器進行分類,分類器給出的類標就是識別結果。但是,目前傳統技術幾乎只考慮了單語特征,忽略了多語數據中蘊含的潛在信息,而多語信息對事件識別和類型消歧來說至關重要。
發明內容
為了解決現有技術中的上述問題,即為了解決單語特征識別效果不能滿足需求的問題,本發明一方面提出了一種基于多語注意力機制的事件識別及分類方法,包括:
步驟1,將僅標注單語事件信息的數據映射為多語平行數據;
步驟2,將所述多語平行數據進行詞匯級別對齊,通過多語對齊關系得到同一事件在多種不同語言中的一致性表示;
步驟3,利用步驟2得到同一事件在多種不同語言中的一致性表示,基于單語注意力模型獲取多語一致性信息;
步驟4,利用步驟2得到同一事件在多種不同語言中的一致性表示,基于多語注意力模型獲取多語互補性信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711463578.0/2.html,轉載請聲明來源鉆瓜專利網。





