[發(fā)明專利]數(shù)據(jù)識(shí)別方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202110354012.4 | 申請(qǐng)日: | 2021-04-01 |
| 公開(公告)號(hào): | CN112948646B | 公開(公告)日: | 2022-12-13 |
| 發(fā)明(設(shè)計(jì))人: | 林博 | 申請(qǐng)(專利權(quán))人: | 支付寶(杭州)信息技術(shù)有限公司 |
| 主分類號(hào): | G06F16/903 | 分類號(hào): | G06F16/903;G06F16/906 |
| 代理公司: | 濟(jì)南信達(dá)專利事務(wù)所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 310000 浙江省杭州市*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 識(shí)別 方法 裝置 | ||
本說明書實(shí)施例提供了一種數(shù)據(jù)識(shí)別方法和裝置。根據(jù)該實(shí)施例的方法,獲取待識(shí)別數(shù)據(jù)集;然后從所述待識(shí)別數(shù)據(jù)集中提取各待識(shí)別數(shù)據(jù)的前綴數(shù)據(jù);將所述前綴數(shù)據(jù)與預(yù)設(shè)類型數(shù)據(jù)的前綴分布進(jìn)行匹配,確定所述待識(shí)別數(shù)據(jù)集針對(duì)所述預(yù)設(shè)類型數(shù)據(jù)的前綴匹配得分;再將所述前綴匹配得分與所述待識(shí)別數(shù)據(jù)集的統(tǒng)計(jì)特征輸入所述預(yù)設(shè)類型數(shù)據(jù)的分類模型,得到所述待識(shí)別數(shù)據(jù)集是否屬于所述預(yù)設(shè)類型數(shù)據(jù)的分類結(jié)果。
技術(shù)領(lǐng)域
本說明書一個(gè)或多個(gè)實(shí)施例涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)識(shí)別方法和裝置。
背景技術(shù)
在現(xiàn)實(shí)存在的大規(guī)模數(shù)據(jù)中,存在一些識(shí)別難度較高的數(shù)據(jù),例如工號(hào)、信用評(píng)分、發(fā)票號(hào)碼等等。這些數(shù)據(jù)大部分為數(shù)字類型,不具備太多的語義信息,難以通過NLP(Natural Language Processing,自然語言處理)的方式進(jìn)行識(shí)別。并且,這些數(shù)據(jù)沒有太強(qiáng)的正則特征,很難采用正則表達(dá)式進(jìn)行識(shí)別。因此,目前對(duì)于上述數(shù)字類型的弱正則數(shù)據(jù)的識(shí)別準(zhǔn)確率很低。
發(fā)明內(nèi)容
有鑒于此,本說明書一個(gè)或多個(gè)實(shí)施例描述了一種數(shù)據(jù)識(shí)別方法和裝置,以便于提高數(shù)字類型的弱正則數(shù)據(jù)的識(shí)別準(zhǔn)確率。
根據(jù)第一方面,提供了一種數(shù)據(jù)識(shí)別方法,包括:
獲取待識(shí)別數(shù)據(jù)集;
從所述待識(shí)別數(shù)據(jù)集中提取各待識(shí)別數(shù)據(jù)的前綴數(shù)據(jù);
將所述前綴數(shù)據(jù)與預(yù)設(shè)類型數(shù)據(jù)的前綴分布進(jìn)行匹配,確定所述待識(shí)別數(shù)據(jù)集針對(duì)所述預(yù)設(shè)類型數(shù)據(jù)的前綴匹配得分;
將所述前綴匹配得分與所述待識(shí)別數(shù)據(jù)集的統(tǒng)計(jì)特征輸入所述預(yù)設(shè)類型數(shù)據(jù)的分類模型,得到所述待識(shí)別數(shù)據(jù)集是否屬于所述預(yù)設(shè)類型數(shù)據(jù)的分類結(jié)果。
在一個(gè)實(shí)施例中,所述獲取待識(shí)別數(shù)據(jù)集包括:
從結(jié)構(gòu)化數(shù)據(jù)的同一列數(shù)據(jù)中抽取多于一個(gè)的待識(shí)別數(shù)據(jù)構(gòu)成待識(shí)別數(shù)據(jù)集;或者,
從非結(jié)構(gòu)化數(shù)據(jù)的表格中抽取同一列的多于一個(gè)的待識(shí)別數(shù)據(jù)構(gòu)成待識(shí)別數(shù)據(jù)集。
在另一個(gè)實(shí)施例中,從所述待識(shí)別數(shù)據(jù)集中提取各待識(shí)別數(shù)據(jù)的前綴數(shù)據(jù)包括:
提取所述待識(shí)別數(shù)據(jù)中前M位的數(shù)據(jù)作為前綴數(shù)據(jù),所述M為預(yù)設(shè)的正整數(shù)。
在一個(gè)實(shí)施例中,所述預(yù)設(shè)類型數(shù)據(jù)的前綴分布采用如下方式預(yù)先得到:
獲取所述預(yù)設(shè)類型數(shù)據(jù)的第一訓(xùn)練樣本集;
從所述第一訓(xùn)練樣本集中提取各訓(xùn)練樣本的前綴數(shù)據(jù);
依據(jù)各前綴數(shù)據(jù)在所述第一訓(xùn)練樣本集中的分布,確定各前綴數(shù)據(jù)的分布得分。
在另一個(gè)實(shí)施例中,所述依據(jù)各前綴數(shù)據(jù)在所述第一訓(xùn)練樣本集中的分布,確定各前綴數(shù)據(jù)的分布得分包括:
依據(jù)各前綴數(shù)據(jù)的區(qū)分度、命中所述第一訓(xùn)練樣本集的訓(xùn)練樣本數(shù)、所述第一訓(xùn)練樣本集的訓(xùn)練樣本總數(shù)以及前綴長(zhǎng)度,確定各前綴數(shù)據(jù)的分布得分。
在一個(gè)實(shí)施例中,將所述前綴數(shù)據(jù)與預(yù)設(shè)類型數(shù)據(jù)的前綴分布進(jìn)行匹配,確定所述待識(shí)別數(shù)據(jù)集針對(duì)所述預(yù)設(shè)類型數(shù)據(jù)的前綴匹配得分:
依據(jù)所述各待識(shí)別數(shù)據(jù)的前綴數(shù)據(jù)與所述各訓(xùn)練樣本的前綴數(shù)據(jù)的重合程度以及重合的前綴數(shù)據(jù)的分布得分,得到所述待識(shí)別數(shù)據(jù)集針對(duì)所述預(yù)設(shè)類型數(shù)據(jù)的前綴匹配得分。
在另一個(gè)實(shí)施例中,所述預(yù)設(shè)類型數(shù)據(jù)的分類模型采用以下方式預(yù)先訓(xùn)練得到:
獲取多于一個(gè)的第二訓(xùn)練樣本集,并標(biāo)注各第二訓(xùn)練樣本集是否屬于所述預(yù)設(shè)類型數(shù)據(jù);
確定所述第二訓(xùn)練樣本集針對(duì)所述預(yù)設(shè)類型數(shù)據(jù)的前綴匹配得分和所述第二訓(xùn)練樣本集的統(tǒng)計(jì)特征;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于支付寶(杭州)信息技術(shù)有限公司,未經(jīng)支付寶(杭州)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110354012.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





