[發明專利]一種基于問答模式的金融事件主體抽取方法有效
| 申請號: | 202010321839.0 | 申請日: | 2020-04-22 |
| 公開(公告)號: | CN111522906B | 公開(公告)日: | 2023-03-28 |
| 發明(設計)人: | 劉玓;彭灣灣;鄒馨儀;羅瑜;汪騰睿 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/332;G06F16/35;G06F16/36 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 韋海英 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 問答 模式 金融 事件 主體 抽取 方法 | ||
本發明公開了一種基于問答模式的金融事件主體抽取方法,利用左信息熵、右信息熵和互信息值的關系快速準確地構建事件類型,為財經新聞類復雜文本所具有的事件類型多樣的問題提供了解決辦法;并構建問題答案序列,通過多輪問答的這種方式,采用雙向Transformer架構模型獲取事件主體。
技術領域
本發明屬于文本處理算法領域,具體涉及一種基于問答模式的金融事件主體抽取方法。
背景技術
事件抽取技術是自然語言處理中信息抽取領域的重要研究方向,它將文本內容通過結構化的事件框架呈現。“事件”是指某個特定的時間片段和地域范圍內發生的事情,包含事件類型、事件觸發詞和事件論元三種組成部分。事件主體是一種特殊的事件論元,通常為事件觸發詞所描述動作的發起者,從句法角度上屬于主語。
在金融領域中,財經新聞常作為事件抽取任務的基礎語料,這類文本具有篇幅長、句法復雜、專業性強等特點。這些文本結構特點和語言特性為事件抽取任務帶來多種阻礙,其中,針對長句子的事件抽取任務面臨文本距離退化的問題。具體地,長句子通常由多個以逗號為分隔的短句組成,這些短句具有完整的謂語和賓語結構,并且存在主語指向不一致的情況。因此在各短句內,事件主體、觸發詞和其他事件論元之間的文本距離十分接近,甚至直接相鄰。該情況導致針對長句的事件抽取任務轉化為對文本的局部抽取,但模型可能因此產生錯誤的識別,使事件主體與對應的觸發詞以及其他的論元不匹配。
目前,常見的事件抽取的方法主要為機器學習方法,分為傳統機器學習方法和深度學習方法。傳統機器學習方法主要為統計模型,例如隱馬爾科夫模型、支持向量機、最大熵模型等。而深度學習方法常利用序列標注的思想,使用神經網絡對文本語義進行學習。但是上述模型往往不能很好地解決金融領域文本中出現的退化問題,造成抽取內容不完整或不匹配。
發明內容
針對現有技術中的上述不足,本發明提供的一種基于問答模式的金融事件主體抽取方法解決了解決長距離文本帶來的事件抽取任務退化的問題。
為了達到上述發明目的,本發明采用的技術方案為:一種基于問答模式的金融事件主體抽取方法,包括以下步驟:
S1、對財經新聞文本以其逗號分隔出的短句為單位,形成短句文本序列,并對短句文本序列中的每個短句先進行分詞處理再進行去停用詞處理,得到詞序列;
S2、根據各短句的詞序列,得到事件類型序列;
S3、判斷事件類型序列是否為空集,若是,則跳轉至步驟S4,若否,則跳轉至步驟S5;
S4、將特殊問題加入每一個輸入的短句文本序列中,構成多個問題答案序列,進入步驟S7;
S5、對事件類型序列中的每個事件類型生成自然語言問題,得到自然語言問題序列;
S6、將自然語言問題序列中的每一個自然語言問題依次加入每一個輸入的短句文本序列中,構成多個問題答案序列;
S7、將多個問題答案序列輸入雙向Transformer架構模型,得到事件主體序列。
進一步地,步驟S1中的分詞處理包括:先驗知識的特征約束和序列標注。
進一步地,序列標注的方法為:通過先驗知識的特征約束,使用條件隨機場算法,以“BIS”標簽對各短句中每個漢字進行標注。
進一步地,步驟S2包括以下分步驟:
S21、對詞序列中的詞語做詞頻統計,得到一階詞頻;
S22、對序列中的詞語進行二階組合,并計算得到的二階組合詞的二階詞頻;
S23、計算二階組合詞的左信息熵和右信息熵;
S24、根據一階詞頻和二階詞頻計算互信息值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010321839.0/2.html,轉載請聲明來源鉆瓜專利網。





