[發明專利]一種基于知識圖譜的金融文本聯合抽取分類方案在審
| 申請號: | 202110992343.0 | 申請日: | 2021-08-27 |
| 公開(公告)號: | CN113821636A | 公開(公告)日: | 2021-12-21 |
| 發明(設計)人: | 景泳霖;鄒鴻岳;周靖宇 | 申請(專利權)人: | 上海快確信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/126;G06N3/08;G06Q40/04 |
| 代理公司: | 深圳華屹智林知識產權代理事務所(普通合伙) 44785 | 代理人: | 陳建 |
| 地址: | 201700 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 金融 文本 聯合 抽取 分類 方案 | ||
一種基于知識圖譜的金融文本聯合抽取分類方案,它涉及文本數據處理技術領域。它包含1)文本預訓練模塊,采用(包括但不限于)Bert等比較成熟的預訓練模型,對文本進行預訓練編碼,獲得固定維度的字符或詞向量;2)數值定制化編碼模塊,傳統的預訓練針對數值編碼,都采用與文本字符相同的編碼方式。本發明首先構建了一套綢密的數值編碼預訓練模型,用于對文本中的數值信息進行預編碼,其次是構建了一個融合無監督知識圖譜的self?attention網絡層,作為文本編碼和數值編碼的融合訓練學習層,整體系統實現了對金融債券交易意圖識別和要素提取任務,對富含數值數據的任務中整體準確率提升了2%?5%以上,具有較大的市場推廣價值。
技術領域
本發明涉及文本數據處理技術領域,具體涉及一種基于知識圖譜的金融文本聯合抽取分類方案。
背景技術
文本信息抽取和意圖識別在深度學習領域是一個比較成熟的算法技術;它也成功在各種業務場景應用落地。在金融或其它領域,針對同一文本往往有聯合任務需求,既要對文本進行意圖識別又要提取其關鍵要素。如資金的交易對話“您好,求借隔夜2.5E+15bp,押101901448;謝謝”;業務中既要識別意圖是“借資金”同時要識別其中的要素“期限=隔夜、量=2.5億、利息=15bp、抵押債券=101901448”。一個有效的從文本中識別意圖和要素提取的聯合模型,可以便于業務中下游任務的執行。現有的技術主要分成兩種形式,一種是Pipeline模式,將意圖識別和信息抽取當作兩個任務來分別處理。意圖識別采用比較成熟的深度學習方案,如LSTM、TextCNN、GRU等模型方案以及他們之間的組合模型等;信息抽取采用傳統的深度學習算法如LSTM+CRF,BERT+CRF等序列標注模型;或者針對中文的優化模型如Graph4CNER,FLAT等。另一種是Joint(聯合學習)模式,即采用一個共享參數的深度學習模型框架完成意圖識別和信息抽取兩個任務,此模式有各種嘗試的方案,但是目前并沒有比較成熟或完備的技術方案;都是基于一定的業務場景、數據特點做的定向設計。
首先pipeline模式和joint模式的比較;pipeline采用兩個深度學習模型,一方面在底層編碼中兩個模型是有很多可共享的參數,但是采用兩個模型無法實現參數共享,這增加了算法模型等計算量。另一方面是誤差傳遞,在業務上第一個模型的誤差容易傳遞到第二個模型中,導致誤差擴散。Joint模式目前并沒有成熟、通用的技術方案;基于一定場景、數據特點提供的定向模型設計;其次是針對金融特定領域,現有的joint模式有以下幾個問題:1).現有模型結構采用的方法包括但不限于transformer,循環神經網絡結構,文本卷積以及它們的結合等,這些傳統方法只是發揮語言模型的多樣結構,不能在實際的金融語料中解析到非常細節的內容和意圖。2).金融交易文本中含有大量非標準主謂賓結構的語法文本以及數值信息;這些金融數值文本存在特殊意義,而當前的語言模型難于表征這些數值信息以及其內在的邏輯結構。3).現有的模型結構,由于聯合模式導致的嵌入稀疏性,難于對實體與實體的關系進行學習刻畫。如成熟的attention結構,可以輸出對原始詞嵌入的注意力概率,但是在多層的attention layer后這樣的注意力得分已經變得不直觀,即時是additive attention,也無法得到不稀疏的注意力得分輸出。
發明內容
本發明的目的在于針對現有技術的缺陷和不足,提供一種基于知識圖譜的金融文本聯合抽取分類方案,以解決上述背景技術中提出的問題,本發明首先構建了一套綢密的數值編碼預訓練模型,用于對文本中的數值信息進行預編碼,其次是構建了一個融合無監督知識圖譜的self-attention網絡層,作為文本編碼和數值編碼的融合訓練學習層,整體系統實現了對金融債券交易意圖識別和要素提取任務,對富含數值數據的任務中整體準確率提升了2%-5%以上,具有較大的市場推廣價值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海快確信息科技有限公司,未經上海快確信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110992343.0/2.html,轉載請聲明來源鉆瓜專利網。





