[發明專利]融合句法信息的無觸發詞事件檢測方法有效
| 申請號: | 202110451650.8 | 申請日: | 2021-04-26 |
| 公開(公告)號: | CN113239142B | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 張亞飛;汪翠;郭軍軍;高盛祥;余正濤 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/211;G06F40/30;G06N3/04 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 句法 信息 觸發 事件 檢測 方法 | ||
本發明涉及融合句法信息的無觸發詞事件檢測方法,屬于自然語言處理技術領域。本發明首先獲取預處理語料的句法依存信息以及進行BPE編碼獲取子詞單元;將基于BPE子詞單元的句子轉為ID之后,再通過隨機初始化獲取句子中每個子詞單元的向量表示;根據句子BPE編碼后的子詞單元數量來計算出每個單詞的中間位置,然后將每個單詞映射為其父詞的中間位置表示;采用transformer作為編碼器,將句法信息與文本的語義信息進行融合;最后通過類型感知器獲取局部的觸發詞特征,再將局部的觸發詞特征與全局的語義表征進行聯合,來完成事件檢測任務。本發明的檢測方法更簡便有效。
技術領域
本發明涉及融合句法信息的無觸發詞事件檢測方法,屬于自然語言處理技術領域。
背景技術
事件檢測是從非結構化的文本中識別出事件信息并對其進行分類。隨著信息的快速增長,相關新聞報道也隨之增多,檢測新聞中所報道的相關事件,有助于準確、快速地把握熱點新聞的事態動態,并做出有效的應對措施。
大多數現有的事件檢測模型需要帶標注的事件觸發詞和事件類型進行訓練。這些方法根據輸入的不同,可以分為基于語義表示的方法和基于句法依存表示的方法。其中,基于語義表示的方法只使用給定的句子作為模型的輸入,在長距離依賴方面存在著低效率的問題。基于句法依存表示的方法通過在模型中融入句法信息能夠準確定位與觸發詞最相關的信息,以及在單個句子中存在多個事件時,增強事件之間的信息流動性。現有的基于句法依存表示的模型通常采用鄰接矩陣來表示原始的句法依賴關系,但鄰接矩陣表示范圍有限,只能捕獲當前節點與相鄰節點的關系。同時,鄰接矩陣需要GCN網絡對其進行編碼以獲取句法信息。但是,利用GCN編碼會引入額外的訓練參數,增加了模型的復雜度。此外,這些方法對觸發詞的標注會耗費大量的人力工程。
針對以上問題,提出了通過在模型源端以一種無參數的方式將句法依存樹中依賴父詞信息融入到依賴子詞的單詞嵌入使模型在編碼源句子時關注到每個單詞的父級依賴項及其上下文,而不需要采用GCN網絡進行編碼;以及采用基于多頭注意力機制的類型感知器對句子中隱藏的觸發詞進行建模,以實現無觸發詞的事件檢測。
發明內容
本發明提供了融合句法信息的無觸發詞事件檢測方法,用于解決目前事件檢測模型依賴于GCN網絡對句法信息編碼增加模型復雜度以及對觸發詞標注費時費力的問題。
本發明的技術方案是:融合句法信息的無觸發詞事件檢測方法,所述融合句法信息的無觸發詞事件檢測方法的具體步驟如下:
Step1、本發明語料收集是在ACE2005數據集上進行,并對ACE數據集進行了預處理;
Step2、獲取預處理語料的句法依存信息以及進行BPE編碼獲取子詞單元,并分配訓練語料、測試語料和驗證語料;
Step3、將基于BPE子詞單元的句子轉為ID之后,再通過隨機初始化獲取句子中每個子詞單元的向量表示;
Steps4、根據句子BPE編碼后的子詞單元數量來計算出每個單詞的中間位置,然后將每個單詞映射為其父詞的中間位置表示。對新聞事件句進行BPE編碼能獲取基于BPE子詞單元的新聞事件句;
Step5、采用基于transformer的語義表示層作為編碼器,將句法信息與文本的語義信息進行融合,以編碼獲取句子的上下文語義表征。
Step6、最后通過類型感知器獲取局部的觸發詞特征,再將局部的觸發詞特征與全局的語義表征進行聯合,來完成事件檢測任務。
作為本發明的優選方案,所述步驟Step1具體步驟為:
Step1.1、本發明的語料是在ACE2005數據集上進行的,ACE2005語料庫包括8種事件類型,33種事件子類型。將33種事件子類型視為33個獨立的事件類型,而忽略它們之間的層次結構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110451650.8/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





