[發(fā)明專利]一種數(shù)據(jù)提取方法、裝置、電子設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202210011342.8 | 申請日: | 2022-01-06 |
| 公開(公告)號: | CN114398878A | 公開(公告)日: | 2022-04-26 |
| 發(fā)明(設(shè)計)人: | 景泳霖;李藝彬;鄒鴻岳;周靖宇 | 申請(專利權(quán))人: | 北京快確信息科技有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/126;G06N3/04;G06N3/08 |
| 代理公司: | 廣東良馬律師事務(wù)所 44395 | 代理人: | 王寧 |
| 地址: | 100000 北京市西*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 提取 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本發(fā)明公開了一種數(shù)據(jù)提取方法、裝置、電子設(shè)備及存儲介質(zhì),包括:獲取用于訓(xùn)練的文本數(shù)據(jù),對文本數(shù)據(jù)進(jìn)行預(yù)處理;根據(jù)預(yù)處理的文本數(shù)據(jù)分別提取出數(shù)字樣本和字符樣本;對數(shù)字樣本進(jìn)行單獨編碼,生成數(shù)字編碼;通過多頭注意力和雙向長短期記憶結(jié)構(gòu)的編碼模型對字符樣本進(jìn)行編碼,生成字符編碼;獲取預(yù)先設(shè)置的金融數(shù)字規(guī)則庫,對金融數(shù)字規(guī)則庫進(jìn)行映射后,生成人工標(biāo)注的訓(xùn)練標(biāo)簽;將數(shù)字編碼、字符編碼及人工標(biāo)注的訓(xùn)練標(biāo)簽輸入CRF模型進(jìn)行解碼,生成數(shù)字提取模型;獲取待處理的文本數(shù)據(jù),將文本數(shù)據(jù)輸入數(shù)字提取模型,生成數(shù)字預(yù)測結(jié)果。本發(fā)明在少量標(biāo)注數(shù)據(jù),并且在標(biāo)注質(zhì)量較低的情況下,實現(xiàn)數(shù)據(jù)標(biāo)注,大大減少了標(biāo)注的人力成本。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)提取方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
在金融領(lǐng)域,存在各種數(shù)字類的信息,需要提取。如財報表格信息,文本中包含的各種數(shù)字等等。數(shù)字類信息,不像文本字符,有單獨的特殊含義。數(shù)字信息往往需要依據(jù)其值的大小來判斷類型;這即帶來了文本提取中的困難,同時也給了文本信息提取處理數(shù)字問題指出了優(yōu)化方向。
不同與中文字符,其排列有一定的順序;數(shù)字(0-9)某種意義上是可以自由組合的。因此在做文本處理的信息抽取任務(wù)時,增加了模型學(xué)習(xí)的難度,并且需要更多的訓(xùn)練語料。
如何通過一定的技術(shù),可以在標(biāo)注數(shù)據(jù)量比較少的情況下啟動信息抽取任務(wù),并將金融數(shù)字的特征作為一種遠(yuǎn)程監(jiān)督的手段,減少標(biāo)注量的同時保證信息抽取任務(wù)的準(zhǔn)確率,這是一個難點問題。
針對文本信息抽取,通常有兩種方式,一種是通過規(guī)則引擎,匹配符合某種規(guī)則的信息。第二種是最近幾年發(fā)展起來的神經(jīng)網(wǎng)絡(luò)模型,如經(jīng)典的“BiLSTM+CRF、Bert+LSTM+CRF”等等。針對中文抽取問題發(fā)展出的“Graph4NER(命名實體識別圖網(wǎng)絡(luò)模型)、LGN(詞典中文圖神經(jīng)網(wǎng)絡(luò))”等等。在數(shù)據(jù)比較充分的情況下,這些模型都能比較好的解決業(yè)務(wù)的需求,達(dá)到比較高的準(zhǔn)確率。
遠(yuǎn)程監(jiān)督,本質(zhì)上是依據(jù)一些訓(xùn)練數(shù)據(jù)以外的信息,復(fù)雜監(jiān)督模型的訓(xùn)練,如“基于知識圖譜”作為遠(yuǎn)程監(jiān)督的方法。這是一個非通用問題,需要依據(jù)不同的場外信息定制不同的監(jiān)督策略的。冷啟動問題,指的是“訓(xùn)練數(shù)據(jù)量很少”的情況下訓(xùn)練模型并且達(dá)到一定的實用水平,目前有一些研究方向,但是同樣沒有成熟的方案。
基于規(guī)則引擎進(jìn)行抽取,首先需要大量的人力資源進(jìn)行規(guī)則梳理,隨著規(guī)則增加,會導(dǎo)致規(guī)則互相排斥,并且不容易維護(hù)等問題。其次基于深度學(xué)習(xí)的模型,要達(dá)到商用往往都需要大量的、高質(zhì)量的標(biāo)注數(shù)據(jù)。這在模型訓(xùn)練學(xué)習(xí)之前,同樣需要大量的人力進(jìn)行數(shù)據(jù)提取。
因此,現(xiàn)有技術(shù)還有待于改進(jìn)和發(fā)展。
發(fā)明內(nèi)容
鑒于上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種數(shù)據(jù)提取方法、裝置、電子設(shè)備及存儲介質(zhì),旨在解決現(xiàn)有技術(shù)中對金融數(shù)據(jù)進(jìn)行提取時,需要花費大量人力進(jìn)行標(biāo)注數(shù)據(jù)提取的問題。
本發(fā)明的技術(shù)方案如下:
本發(fā)明第一實施例提供了一種數(shù)據(jù)提取方法,方法包括:
獲取用于訓(xùn)練的文本數(shù)據(jù),對文本數(shù)據(jù)進(jìn)行預(yù)處理,生成預(yù)處理的文本數(shù)據(jù);
根據(jù)預(yù)處理的文本數(shù)據(jù)分別提取出數(shù)字樣本和字符樣本;
對數(shù)字樣本進(jìn)行單獨編碼,生成數(shù)字編碼;
通過多頭注意力和雙向長短期記憶結(jié)構(gòu)的編碼模型對字符樣本進(jìn)行編碼,生成字符編碼;
獲取預(yù)先設(shè)置的金融數(shù)字規(guī)則庫,對金融數(shù)字規(guī)則庫進(jìn)行映射后,生成人工標(biāo)注的訓(xùn)練標(biāo)簽;
將數(shù)字編碼、字符編碼及人工標(biāo)注的訓(xùn)練標(biāo)簽輸入CRF模型進(jìn)行解碼,生成數(shù)字提取模型;
獲取待處理的文本數(shù)據(jù),將文本數(shù)據(jù)輸入數(shù)字提取模型,生成數(shù)字預(yù)測結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京快確信息科技有限公司,未經(jīng)北京快確信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210011342.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





