[發(fā)明專利]一種基于深度學習算法的金融同業(yè)輿情分析方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010424186.9 | 申請日: | 2020-05-19 |
| 公開(公告)號: | CN111639183A | 公開(公告)日: | 2020-09-08 |
| 發(fā)明(設(shè)計)人: | 李振;鮑東岳;張剛;尹正;劉昊霖;張雨楓;徐超;陳厚霖;馬圣楠;傅佳美 | 申請(專利權(quán))人: | 民生科技有限責任公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 北京金智普華知識產(chǎn)權(quán)代理有限公司 11401 | 代理人: | 巴曉艷 |
| 地址: | 101300 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學習 算法 金融 同業(yè) 輿情 分析 方法 系統(tǒng) | ||
1.一種基于深度學習算法的金融同業(yè)輿情分析方法,其特征在于,所述方法對經(jīng)過預處理的同業(yè)新聞文本數(shù)據(jù)依次進行性質(zhì)分析、事件分類及事件主體發(fā)現(xiàn),得到特定事件及特定領(lǐng)域范圍內(nèi)的輿情狀況;其中,所述性質(zhì)分析的結(jié)果包括三個類別:正向、中性、負向;所述事件分類用以得到新聞類型判斷結(jié)果;所述事件主體發(fā)現(xiàn)用以發(fā)現(xiàn)同業(yè)新聞文本的主體,并將主體與事件進行對應。
2.如權(quán)利要求1所述的基于深度學習算法的金融同業(yè)輿情分析方法,其特征在于,所述方法具體包括:
S1、對同業(yè)新聞文本數(shù)據(jù)進行預處理;
S2、經(jīng)過步驟S1預處理的同業(yè)新聞文本數(shù)據(jù)輸入XLNET性質(zhì)分析模型,得到性質(zhì)分析的判斷結(jié)果;
S3、經(jīng)過步驟S1預處理的同業(yè)新聞文本數(shù)據(jù)輸入BERT分類模型,得到新聞類型判斷結(jié)果;
S4、將經(jīng)過步驟S1預處理的同業(yè)新聞文本數(shù)據(jù)及經(jīng)過步驟S3處理得到的新聞類型判斷結(jié)果輸入注意力機制的事件主體發(fā)現(xiàn)模型,得到“主體-事件”的對應表示;
S5、將步驟S4得到的“主體-事件”的對應表示按照情感方向進行歸納,根據(jù)出現(xiàn)頻率以及相似度計算,羅列出近期的熱點主體、熱點事件以及相互對應關(guān)系,得到特定事件以及領(lǐng)域范圍內(nèi)的輿情狀況。
3.如權(quán)利要求2所述的基于深度學習算法的金融同業(yè)輿情分析方法,其特征在于,步驟S1中,對同業(yè)新聞文本數(shù)據(jù)進行預處理的具體方法為:
S1.1利用網(wǎng)頁爬蟲系統(tǒng)爬取規(guī)定時間段以及地域范圍內(nèi)的同業(yè)新聞文本數(shù)據(jù),抓取得到的網(wǎng)頁爬蟲數(shù)據(jù)僅保留網(wǎng)頁文章正文和標題部分以及論壇文字的評論部分;
S1.2將經(jīng)步驟S1.1處理后得到的同業(yè)文本數(shù)據(jù)中的無效信息刪除,所述無效信息包括特殊字符、網(wǎng)頁引導和超鏈接;
S1.3經(jīng)步驟S1.2處理后的清潔同業(yè)新聞文本數(shù)據(jù)轉(zhuǎn)換為字符與編碼,對應的字符編碼作為后續(xù)模型輸入。
4.如權(quán)利要求3所述的基于深度學習算法的金融同業(yè)輿情分析方法,其特征在于,步驟S2中,使用性質(zhì)分析模型進行性質(zhì)分析的方法為:
S2.1經(jīng)過步驟S1處理后的同業(yè)文本數(shù)據(jù)劃分為訓練數(shù)據(jù)和實際數(shù)據(jù);
S2.2將訓練數(shù)據(jù)及對應情感標簽導入到XLNET的文本分類預訓練模型中,進行模型訓練,儲存模型為二進制編碼的.m格式;
S2.3將編碼格式的實際數(shù)據(jù)傳入到訓練后的XLNET性質(zhì)分析模型中,得到文章的情感判斷結(jié)果。
5.如權(quán)利要求4所述的基于深度學習算法的金融同業(yè)輿情分析方法,其特征在于,步驟S3中,新聞類型判斷的方法為:
S3.1將訓練集數(shù)據(jù)以及對應類別標簽導入到BERT的文本分類預訓練模型中,進行模型訓練,儲存模型為二進制編碼的.m格式;
S3.2將編碼格式的實際數(shù)據(jù)傳入到訓練后的BERT文本分類模型中,得到文章的新聞類型結(jié)果。
6.如權(quán)利要求4所述的基于深度學習算法的金融同業(yè)輿情分析方法,其特征在于,步驟S4中,事件主體發(fā)現(xiàn)的具體方法為:
S4.1將訓練集數(shù)據(jù)以及對應主體標簽的對應表示導入到事件主體發(fā)現(xiàn)模型中,進行模型訓練,儲存模型為二進制編碼的.m格式;所述事件主體發(fā)現(xiàn)模型為基于注意力機制的序列標注模型;
S4.2將編碼格式的實際數(shù)據(jù)傳入到訓練后的事件主體發(fā)現(xiàn)模型中,得到文章的“主體—事件”的抽取結(jié)果。
7.如權(quán)利要求5所述的基于深度學習算法的金融同業(yè)輿情分析方法,其特征在于,步驟S5的具體方法為:
S5.1計算主體之間的Jaccard系數(shù),如果數(shù)值小于0.9則認為是同一主體;同一主體的相同事件次數(shù)進行累加,不同事件按照事件出現(xiàn)頻率進行排序;
S5.2對同一主體的事件情感傾向進行統(tǒng)計,得到該主體的情感分布。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于民生科技有限責任公司,未經(jīng)民生科技有限責任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010424186.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





