[發明專利]基于Electra深度神經網絡的金融新聞輿情預警分類方法及系統在審
| 申請號: | 202211619985.7 | 申請日: | 2022-12-15 |
| 公開(公告)號: | CN116151989A | 公開(公告)日: | 2023-05-23 |
| 發明(設計)人: | 史珂;張笑冬;何平 | 申請(專利權)人: | 興業銀行股份有限公司;興業數字金融服務(上海)股份有限公司 |
| 主分類號: | G06Q40/06 | 分類號: | G06Q40/06;G06F16/9535;G06F16/906;G06F18/241;G06F40/211;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 單雯 |
| 地址: | 350014 福建省福州*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 electra 深度 神經網絡 金融 新聞 輿情 預警 分類 方法 系統 | ||
1.一種基于Electra深度神經網絡的金融新聞輿情預警分類方法,其特征在于,包括:
步驟S1:采集金融新聞數據并進行標注;
步驟S2:對標注后的金融新聞數據進行預處理,并輸入至Electra預訓練模型進行增量訓練和更新模型權重,得到更新后的Electra深度神經網絡模型;
步驟S3:通過所述Electra深度神經網絡模型得到文本表征,進而判斷對應的金融新聞數據文本是否為負面文本,若是,則觸發步驟S4;若否,則不進行預警;
步驟S4:提取負面的金融新聞數據文本中的主旨句,在通過Electra深度神經網絡模型提取每個主旨句中的輿情種類特征;
步驟S5:將所述輿情種類特征輸入至分類器中進行分類,得到最終金融新聞的輿情分類,進而實現預警指令。
2.根據權利要求1所述的基于Electra深度神經網絡的金融新聞輿情預警分類方法,其特征在于,所述標注包括將采集的金融新聞數據根據預設的類別標簽進行標注;
所述類別標簽包括金融業務異常行為、經營不善、企業運作異常、企業重大變革行為、借戶方面除業務外重大負面信息和借戶違法行為。
3.根據權利要求1所述的基于Electra深度神經網絡的金融新聞輿情預警分類方法,其特征在于,所述預處理包括對金融新聞數據進行數據清洗,去除無效字符,同時限制文本最大長度輸入為512個字節,超出所述最大長度的部分采用切片輸入的方式,依次輸入后端的分詞器來獲得文本分詞。
4.根據權利要求1所述的基于Electra深度神經網絡的金融新聞輿情預警分類方法,其特征在于,所述步驟S3包括:將所述待分類金融新聞數據對應的文本編碼輸入所述Electra深度神經網絡模型的全連接層,并通過判別器對所述編碼的張量做二分類,輸出當前金融新聞數據是否為負面分類。
5.根據權利要求1所述的基于Electra深度神經網絡的金融新聞輿情預警分類方法,其特征在于,步驟S4包括:
步驟S4.1:取出判別出的負面金融新聞數據文本中的每一個句子作為輸入文本,通過命名實體識別得到對應的句子主體;
步驟S4.2:計算所述主體和主體對應的文本標題的相似度,計算公式如下:
其中,B表示文本標題中詞組的詞向量均值,Ji表示當前文本中第i個句子的主體詞的詞向量均值,Si表示當前文本中第i個句子的主體和主體對應的文本標題的相似度;
步驟S4.3:選擇相似度得分最高的對應句子作為主旨句。
6.一種基于Electra深度神經網絡的金融新聞輿情預警分類系統,其特征在于,包括:
模塊M1:采集金融新聞數據并進行標注;
模塊M2:對標注后的金融新聞數據進行預處理,并輸入至Electra預訓練模型進行增量訓練和更新模型權重,得到更新后的Electra深度神經網絡模型;
模塊M3:通過所述Electra深度神經網絡模型得到文本表征,進而判斷對應的金融新聞數據文本是否為負面文本,若是,則觸發模塊M4;若否,則不進行預警;
模塊M4:提取負面的金融新聞數據文本中的主旨句,在通過Electra深度神經網絡模型提取每個主旨句中的輿情種類特征;
模塊M5:將所述輿情種類特征輸入至分類器中進行分類,得到最終金融新聞的輿情分類,進而實現預警指令。
7.根據權利要求6所述的基于Electra深度神經網絡的金融新聞輿情預警分類系統,其特征在于,所述標注包括將采集的金融新聞數據根據預設的類別標簽進行標注;
所述類別標簽包括金融業務異常行為、經營不善、企業運作異常、企業重大變革行為、借戶方面除業務外重大負面信息和借戶違法行為。
8.根據權利要求6所述的基于Electra深度神經網絡的金融新聞輿情預警分類系統,其特征在于,所述預處理包括對金融新聞數據進行數據清洗,去除無效字符,同時限制文本最大長度輸入為512個字節,超出所述最大長度的部分采用切片輸入的方式,依次輸入后端的分詞器來獲得文本分詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于興業銀行股份有限公司;興業數字金融服務(上海)股份有限公司,未經興業銀行股份有限公司;興業數字金融服務(上海)股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211619985.7/1.html,轉載請聲明來源鉆瓜專利網。





