[發明專利]事件抽取模型的訓練方法、事件抽取方法和系統及設備在審
| 申請號: | 202010798835.1 | 申請日: | 2020-08-11 |
| 公開(公告)號: | CN111783394A | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 程剛;張劍 | 申請(專利權)人: | 深圳市北科瑞聲科技股份有限公司 |
| 主分類號: | G06F40/117 | 分類號: | G06F40/117;G06F40/289;G06F40/30;G06K9/62 |
| 代理公司: | 深圳市萬商天勤知識產權事務所(普通合伙) 44279 | 代理人: | 羅建平 |
| 地址: | 518000 廣東省深圳市南山區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 事件 抽取 模型 訓練 方法 系統 設備 | ||
本發明公開了一種事件抽取模型的訓練方法、事件抽取方法和系統及設備。其中,事件抽取模型的訓練方法包括:獲取文檔數據并進行相關標注,對已進行相關標注的文檔數據進行向量化處理;對向量化處理后的文檔數據,按照句子、段落和文檔三個級別進行特征提取,將提取得到的三個級別的特征進行融合處理,得到融合全文信息的特征;基于融合全文信息的特征和標注的標簽,通過有監督的深度學習算法,進行實體識別、事件識別和事件元素分類的訓練,得到事件抽取模型。本發明通過分別提取句子級別特征、段落級別特征、文檔級別特征,然后融合三個層次的特征,充分使用了全文信息,增強了特征表達,進而提高了事件抽取識別的性能。
技術領域
本發明涉及計算機數據處理技術領域的事件抽取技術,具體涉及一種事件抽取模型的訓練方法、事件抽取方法和系統及設備。
背景技術
近些年來,隨著金融領域數字化的興起和持續的經濟增長,見證了數字金融文件的爆炸式增長,網絡上存在海量的金融文件,比如大量公司的公告和公司年報。這些海量的數據中包含大量寶貴的信息,但是這些數據大多數都是非結構化或半結構化的數據,非常難以結構化,難以進行量化,所以需要人工進行分析,但是面對海量的數據單純的只依靠人力進行分析,不僅是非常低效的還難以實現,所以對這些數據結構化的研究成為一個研究熱點,并在近年得到快速發展,各種數據結構化的系統層出不窮。
事件抽取是指識別特定類型的事件,并進行相關信息的確定和抽取。事件抽取在自然語言處理中扮演著重要的角色,它可以產生可評估的結構化信息,以促進各種任務的完成,如知識庫的構建、問題的回答、語言理解等。基于事件抽取的特點,其在金融領域有著廣泛的應用。比如相關金融公告的事件抽取,金融公告歸根到底就是一個事件,其是發生在某個特定的時間點或時間段、某個特定的地域范圍內,由一個或者多個角色參與的一個或者多個動作組成的事情或者狀態的改變,可以應用事件抽取,將非結構化的金融公告轉化為結構化的數據,從而為后期的分析,圖譜化的研究打下良好基礎。
傳統的事件抽取主要是基于模板匹配和機器學習的。近些年來,由于深度學習方法性能的不斷提升,深度學習可以端到端的訓練和提取更加魯邦的特征,使得深度學習成為目前事件抽取的主流研究方向。深度學習框架能夠從選取的特征中學習不同類別的指向信息,其參數、特征集和相關網絡架構的確定對分類性能起決定性作用。
事件抽取技術已經在很多金融結構化領域得到了應用,比如公司公告的抽取和金融事件圖譜化的構建,從而將計算機不能理解的非結構化數據轉化為計算機能理解的結構化數據,就能把很多計算機不理解的東西,變成計算機所理解的東西,從而利用計算機強大的計算和推理性能,挖掘一些有意義的信息,從而輔助相關金融投資機構進行相關金融決策。
現有事件抽取研究大多數都是基于句子級別的,這是由于相關特征編碼器處理所需的時間復雜度和空間輔助度都隨著句子長度呈二次方增長,不能處理太長的文本,所以導致這些事件抽取編碼的特征范圍大多都只能是基于句子級別的。現有事件抽取研究局限在句子級別,從而割裂了文本上下文信息的交互,忽略了文檔內容中大量的上下文信息,導致對金融事件相關元素抽取的準確度降低,以至于影響整個金融事件抽取系統的整體性能,從而影響金融事件抽取的整體性能,進而導致金融事件抽取在實際應用中用戶體驗效果不好。
發明內容
本發明的主要目的在于提供一種事件抽取模型的訓練方法和相應的事件抽取方法,通過將事件抽取從僅基于句子級別拓展到基于句子、段落和文檔三個級別,從而增強特征表達,提高事件抽取識別的性能和效果。本發明的目的還在于提供相應的事件抽取模型的訓練系統、事件抽取系統以及相關設備。
為實現上述目的,本發明采用的技術方案如下。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市北科瑞聲科技股份有限公司,未經深圳市北科瑞聲科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010798835.1/2.html,轉載請聲明來源鉆瓜專利網。





