[發明專利]基于觸發詞語態學習的金融文本事件抽取方法有效
| 申請號: | 202110589745.6 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113312916B | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 李建欣;李倩;司靖輝;孫睿;毛乾任;黃洪仁 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F16/35 |
| 代理公司: | 北京中創陽光知識產權代理有限責任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 觸發 詞語 學習 金融 文本 事件 抽取 方法 | ||
1.基于觸發詞語態學習的金融文本事件抽取方法,其特征在于:包括三個步驟:金融領域文本預訓練、事件分類和基于觸發詞語態學習的金融文本事件要素抽??;
所述金融領域文本預訓練步驟的實現方式為,首先進行金融領域標注數據集自動構建,之后結合金融知識圖譜構建BERT預訓練模型,以輸入詞序列作為模型輸入,得到有對應實體的輸出詞作為輸出結果,最后在金融文本訓練集和金融知識圖譜數據上進行再訓練,得到適合下游事件分類和事件抽取的詞表征和實體表征;
所述事件分類步驟根據所述金融領域文本預訓練步驟生成的詞表征做多標簽多分類任務得到事件檢測結果;
所述基于觸發詞語態學習的金融文本事件要素抽取步驟將每一個輸入詞對應的詞表征作為多標簽分類任務的表征向量進行計算,其中元素值超過設定閾值即打上對應要素的標簽。
2.如權利要求1所述的基于觸發詞語態學習的金融文本事件抽取方法,其特征在于:所述標注數據集自動構建的方法為:將現有非結構化金融新聞文本與結構化金融事件知識庫進行對齊操作獲得標注數據。
3.如權利要求2所述的基于觸發詞語態學習的金融文本事件抽取方法,其特征在于:所述BERT預訓練模型由文本表征層和知識融合層構成,所述文本表征層采用BERT模型對輸入詞序列進行表征,通過多層的雙向Transformer編碼器來實現對于語義特征的提取并將得到的詞序列輸入所述知識融合層;所述知識融合層首先通過知識嵌入算法TransE得到結構化的知識編碼實體序列,具體地,以{w1,…,wn}表示詞序列的embedding,{e1,…,em}表示TransE得到的所述實體序列的embedding,兩個序列各自通過多頭注意力機制:
然后將上述得到的兩個序列詞表征和實體表征輸入到信息融合模塊計算:
對于有對應實體的詞:
對于沒有對應實體的詞:
其中Wt代表隱藏層的權重,δ表示非線性激活函數。
4.如權利要求3所述的基于觸發詞語態學習的金融文本事件抽取方法,其特征在于:所述事件分類步驟根據預定義的事件分類標準,定義層級事件分類標簽。
5.如權利要求4所述的基于觸發詞語態學習的金融文本事件抽取方法,其特征在于:所述每一個輸入詞對應的詞表征作為多標簽分類任務的表征向量進行計算的方法為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110589745.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能流行病學調查系統
- 下一篇:一種基于對話狀態追蹤技術的事件抽取方法





