[發(fā)明專利]一種基于圖深度學(xué)習(xí)的文本多標(biāo)簽分類方法和系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202110352008.4 | 申請(qǐng)日: | 2021-03-31 |
| 公開(公告)號(hào): | CN113064995A | 公開(公告)日: | 2021-07-02 |
| 發(fā)明(設(shè)計(jì))人: | 魯繼東;林越峰;苗仲辰;王晨宇;倪夢(mèng)珺;江航 | 申請(qǐng)(專利權(quán))人: | 上海金融期貨信息技術(shù)有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/38;G06F40/30;G06K9/62 |
| 代理公司: | 上海專利商標(biāo)事務(wù)所有限公司 31100 | 代理人: | 施浩 |
| 地址: | 200122 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 文本 標(biāo)簽 分類 方法 系統(tǒng) | ||
本發(fā)明公開了基于圖深度學(xué)習(xí)的文本多標(biāo)簽分類方法和系統(tǒng),在金融領(lǐng)域少標(biāo)注樣本且標(biāo)簽間存在業(yè)務(wù)關(guān)聯(lián)的前提下,依靠基于圖深度學(xué)習(xí)的文本分類方法,自動(dòng)化解決文本多標(biāo)簽分裂問題。其技術(shù)方案為:對(duì)原始采集數(shù)據(jù)進(jìn)行預(yù)處理并進(jìn)行文本向量化的處理,基于中文分詞后轉(zhuǎn)化為文本向量;對(duì)文本向量化結(jié)果,使用多標(biāo)簽注意力網(wǎng)絡(luò)提取文本特征,最終得到文本特征提取結(jié)果;在文本特征提取的基礎(chǔ)上,構(gòu)建圖語義交互層,得到融合圖語義交互層的混合文本向量化的結(jié)果;在融入語義交互層的文本向量化表示基礎(chǔ)上,采用特定損失函數(shù)訓(xùn)練模型進(jìn)行訓(xùn)練,得到輸入文本每個(gè)標(biāo)簽的輸出概率。
技術(shù)領(lǐng)域
本發(fā)明涉及一種文本多標(biāo)簽分類技術(shù),具體涉及基于圖深度學(xué)習(xí)模型來實(shí)現(xiàn)的文本多標(biāo)簽分類方法和系統(tǒng)。
背景技術(shù)
近年來,隨著互聯(lián)網(wǎng)飛速發(fā)展,包括微博、微信等社交網(wǎng)絡(luò)的興起,使得信息能夠迅速的擴(kuò)散,信息量呈現(xiàn)爆炸式增長,尤其在金融領(lǐng)域,專業(yè)術(shù)語多,信息門戶廣,導(dǎo)致監(jiān)管人員快速檢索文本信息帶來了不小的麻煩。因此人們迫切需要一種面向金融領(lǐng)域的文本多標(biāo)簽分類方法,幫助人們從海量的金融新聞信息中迅速發(fā)現(xiàn)有價(jià)值的信息,給新聞打上多個(gè)合適的業(yè)務(wù)標(biāo)簽,對(duì)機(jī)器學(xué)習(xí)領(lǐng)域來說這個(gè)問題抽象定義為一個(gè)文本多標(biāo)簽分類問題。
一般來說,要解決這個(gè)問題,需要耗費(fèi)大量具體較高專業(yè)程度的人員對(duì)金融文本進(jìn)行標(biāo)注,這使得金融語料的標(biāo)注代價(jià)昂貴,且效率低下,無法滿足對(duì)實(shí)時(shí)性要求高的業(yè)務(wù)場景。如何在僅提供少量標(biāo)注樣本的情況下,且標(biāo)注樣本比例嚴(yán)重不均衡的前提下,實(shí)現(xiàn)自動(dòng)化文本多標(biāo)簽分類,成為目前業(yè)界迫在眉睫的問題。
目前,市場上沒有一款產(chǎn)品可以在金融領(lǐng)域少標(biāo)注樣本且標(biāo)簽間存在業(yè)務(wù)關(guān)聯(lián)的前提下自動(dòng)化的解決文本多標(biāo)簽分裂問題。
發(fā)明內(nèi)容
以下給出一個(gè)或多個(gè)方面的簡要概述以提供對(duì)這些方面的基本理解。此概述不是所有構(gòu)想到的方面的詳盡綜覽,并且既非旨在指認(rèn)出所有方面的關(guān)鍵性或決定性要素亦非試圖界定任何或所有方面的范圍。其唯一的目的是要以簡化形式給出一個(gè)或多個(gè)方面的一些概念以為稍后給出的更加詳細(xì)的描述之序。
本發(fā)明的目的在于解決上述問題,提供了一種基于圖深度學(xué)習(xí)的文本多標(biāo)簽分類方法和系統(tǒng),可以在金融領(lǐng)域少標(biāo)注樣本且標(biāo)簽間存在業(yè)務(wù)關(guān)聯(lián)的前提下,依靠基于圖深度學(xué)習(xí)的文本分類方法,自動(dòng)化的解決文本多標(biāo)簽分裂問題。
本發(fā)明的技術(shù)方案為:本發(fā)明揭示了一種基于圖深度學(xué)習(xí)的文本多標(biāo)簽分類方法,方法包括:
步驟1:對(duì)原始采集數(shù)據(jù)進(jìn)行預(yù)處理并進(jìn)行文本向量化的處理,基于中文分詞后轉(zhuǎn)化為文本向量;
步驟2:對(duì)于步驟1處理得到的文本向量化結(jié)果,使用多標(biāo)簽注意力網(wǎng)絡(luò)提取文本特征,最終得到文本特征提取的結(jié)果;
步驟3:在步驟2所得到的文本特征提取的基礎(chǔ)上,構(gòu)建圖語義交互層,得到融合圖語義交互層的混合文本向量化的結(jié)果;
步驟4:在步驟3得到的融入語義交互層的文本向量化表示基礎(chǔ)上,采用特定損失函數(shù)訓(xùn)練模型進(jìn)行訓(xùn)練,得到輸入文本每個(gè)標(biāo)簽的輸出概率。
根據(jù)本發(fā)明的基于圖深度學(xué)習(xí)的文本多標(biāo)簽分類方法的一實(shí)施例,步驟1中的文本向量化的處理是以上下文語義嵌入表示來實(shí)現(xiàn)。
根據(jù)本發(fā)明的基于圖深度學(xué)習(xí)的文本多標(biāo)簽分類方法的一實(shí)施例,步驟2中采用多頭注意力進(jìn)行文本特征提取。
根據(jù)本發(fā)明的基于圖深度學(xué)習(xí)的文本多標(biāo)簽分類方法的一實(shí)施例,步驟3中通過門控圖神經(jīng)網(wǎng)絡(luò)根據(jù)標(biāo)簽之間的統(tǒng)計(jì)關(guān)系進(jìn)行特征交互,既在模型中顯式地融入標(biāo)簽之間的關(guān)聯(lián),又自適應(yīng)地捕捉更豐富的相關(guān)文本特征。
根據(jù)本發(fā)明的基于圖深度學(xué)習(xí)的文本多標(biāo)簽分類方法的一實(shí)施例,步驟4中,采用非對(duì)稱損失函數(shù)處理正負(fù)樣本的非均衡分布,其中非對(duì)稱損失通過權(quán)重衰減因子和置信度閾值平衡正負(fù)樣本在損失中的占比。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海金融期貨信息技術(shù)有限公司,未經(jīng)上海金融期貨信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110352008.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





