[發(fā)明專利]海量數(shù)據(jù)結(jié)構(gòu)化方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201810515743.0 | 申請(qǐng)日: | 2018-05-25 |
| 公開(kāi)(公告)號(hào): | CN108717461B | 公開(kāi)(公告)日: | 2021-03-26 |
| 發(fā)明(設(shè)計(jì))人: | 黃度新;張川;金鑫;王翼 | 申請(qǐng)(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號(hào): | G06F16/25 | 分類號(hào): | G06F16/25;G06F16/35 |
| 代理公司: | 深圳市精英專利事務(wù)所 44242 | 代理人: | 林燕云 |
| 地址: | 518000 廣東省深*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 海量 數(shù)據(jù)結(jié)構(gòu) 方法 裝置 計(jì)算機(jī) 設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種海量數(shù)據(jù)結(jié)構(gòu)化方法,其特征在于,包括:
將非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行聚類,得到與預(yù)設(shè)的聚類簇?cái)?shù)對(duì)應(yīng)的聚類結(jié)果,并設(shè)置與每一簇的聚類一一對(duì)應(yīng)的ID編號(hào);
在聚類結(jié)果中每一簇的聚類中均獲取一非結(jié)構(gòu)化數(shù)據(jù),并將所獲取的非結(jié)構(gòu)化數(shù)據(jù)對(duì)應(yīng)轉(zhuǎn)化為正則表達(dá)式;
將每一簇的聚類中所包括的非結(jié)構(gòu)化數(shù)據(jù)均根據(jù)該聚類對(duì)應(yīng)的正則表達(dá)式進(jìn)行轉(zhuǎn)化,得到結(jié)構(gòu)化數(shù)據(jù);
所述將每一簇的聚類中所包括的非結(jié)構(gòu)化數(shù)據(jù)均根據(jù)該聚類對(duì)應(yīng)的正則表達(dá)式進(jìn)行轉(zhuǎn)化,得到結(jié)構(gòu)化數(shù)據(jù),包括:
獲取每一簇的聚類所對(duì)應(yīng)的正則表達(dá)式所包括的多個(gè)子正則表達(dá)式,將每一簇的聚類中所包括的非結(jié)構(gòu)化數(shù)據(jù)均與該聚類對(duì)應(yīng)的多個(gè)子正則表達(dá)式進(jìn)行轉(zhuǎn)化,得到與每一非結(jié)構(gòu)化數(shù)據(jù)對(duì)應(yīng)的多個(gè)初始轉(zhuǎn)化結(jié)果;
將同一非結(jié)構(gòu)化數(shù)據(jù)對(duì)應(yīng)的多個(gè)初始轉(zhuǎn)化結(jié)果進(jìn)行串接,得到該非結(jié)構(gòu)化數(shù)據(jù)對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù);
所述將所獲取的非結(jié)構(gòu)化數(shù)據(jù)對(duì)應(yīng)轉(zhuǎn)化為正則表達(dá)式,包括:
將所獲取的與每一簇的聚類一一對(duì)應(yīng)的非結(jié)構(gòu)化數(shù)據(jù)根據(jù)字符類型進(jìn)行劃分,得到與所獲取的非結(jié)構(gòu)化數(shù)據(jù)一一對(duì)應(yīng)的劃分結(jié)果;其中,每一劃分結(jié)果均包括多個(gè)子字符串;
根據(jù)每一劃分結(jié)果所包括子字符串,生成與每一劃分結(jié)果對(duì)應(yīng)的多個(gè)子正則表達(dá)式;
將同一劃分結(jié)果內(nèi)對(duì)應(yīng)的多個(gè)子正則表達(dá)式串接,得到該劃分結(jié)果對(duì)應(yīng)的正則表達(dá)式。
2.根據(jù)權(quán)利要求1所述的海量數(shù)據(jù)結(jié)構(gòu)化方法,其特征在于,所述將每一簇的聚類中所包括的非結(jié)構(gòu)化數(shù)據(jù)均根據(jù)該聚類對(duì)應(yīng)的正則表達(dá)式進(jìn)行轉(zhuǎn)化,得到結(jié)構(gòu)化數(shù)據(jù)之后,還包括:
將每一簇的聚類中的每一結(jié)構(gòu)化數(shù)據(jù)根據(jù)文本分類算法填充至該聚類對(duì)應(yīng)的數(shù)據(jù)表格中進(jìn)行存儲(chǔ)。
3.根據(jù)權(quán)利要求1所述的海量數(shù)據(jù)結(jié)構(gòu)化方法,其特征在于,所述將非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行聚類,得到與預(yù)設(shè)的聚類簇?cái)?shù)對(duì)應(yīng)的聚類結(jié)果,包括:
在多個(gè)非結(jié)構(gòu)化數(shù)據(jù)中選取與預(yù)設(shè)的聚類簇?cái)?shù)相同個(gè)數(shù)的非結(jié)構(gòu)化數(shù)據(jù),將所選取的非結(jié)構(gòu)化數(shù)據(jù)作為每一簇的初始聚類中心;
根據(jù)多個(gè)非結(jié)構(gòu)化數(shù)據(jù)與各初始聚類中心的相異值,將多個(gè)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行劃分,得到初始聚類結(jié)果;
根據(jù)初始聚類結(jié)果,獲取每一簇的調(diào)整后聚類中心;
根據(jù)調(diào)整后聚類中心,將多個(gè)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行劃分,直至聚類結(jié)果保持相同的次數(shù)多于預(yù)設(shè)的次數(shù),得到與預(yù)設(shè)的聚類簇?cái)?shù)對(duì)應(yīng)的聚類結(jié)果。
4.根據(jù)權(quán)利要求2所述海量數(shù)據(jù)結(jié)構(gòu)化方法,其特征在于,所述將每一簇的聚類中的每一結(jié)構(gòu)化數(shù)據(jù)根據(jù)文本分類算法填充至該聚類對(duì)應(yīng)的數(shù)據(jù)表格中進(jìn)行存儲(chǔ),包括:
根據(jù)每一簇的聚類的ID編號(hào),一一對(duì)應(yīng)建立數(shù)據(jù)表格;
根據(jù)每一簇的聚類中所選定結(jié)構(gòu)化數(shù)據(jù)的字段,一一對(duì)應(yīng)建立數(shù)據(jù)表格的字段;
將每一簇的聚類中所包括結(jié)構(gòu)化數(shù)據(jù)根據(jù)Fasttext文本分類算法填充至該聚類對(duì)應(yīng)的數(shù)據(jù)表格的對(duì)應(yīng)字段中。
5.根據(jù)權(quán)利要求1所述海量數(shù)據(jù)結(jié)構(gòu)化方法,其特征在于,所述將同一非結(jié)構(gòu)化數(shù)據(jù)對(duì)應(yīng)的初始轉(zhuǎn)化結(jié)果進(jìn)行串接,得到該非結(jié)構(gòu)化數(shù)據(jù)對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù),包括:
將同一非結(jié)構(gòu)化數(shù)據(jù)對(duì)應(yīng)的多個(gè)初始轉(zhuǎn)化結(jié)果尾部均增加一轉(zhuǎn)行符后再進(jìn)行串接,得到該非結(jié)構(gòu)化數(shù)據(jù)對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810515743.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)海量數(shù)據(jù)比對(duì)的方法
- 基于云計(jì)算的海量數(shù)據(jù)訪問(wèn)處理系統(tǒng)
- 一種實(shí)現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲(chǔ)方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實(shí)現(xiàn)海量數(shù)據(jù)準(zhǔn)實(shí)時(shí)全量統(tǒng)計(jì)的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點(diǎn)數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲(chǔ)方法
- 數(shù)據(jù)結(jié)構(gòu)管理裝置、數(shù)據(jù)結(jié)構(gòu)管理系統(tǒng)、數(shù)據(jù)結(jié)構(gòu)管理方法以及用于記錄數(shù)據(jù)結(jié)構(gòu)管理程序的計(jì)算機(jī)可讀介質(zhì)
- 電子墨水處理
- 一種數(shù)據(jù)結(jié)構(gòu)傳輸方法
- 一種基于元數(shù)據(jù)的任意版本兼容數(shù)據(jù)結(jié)構(gòu)存取方法及裝置
- 基于元模型的數(shù)據(jù)結(jié)構(gòu)建立方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì)
- XML數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換方法和裝置
- 用于數(shù)據(jù)結(jié)構(gòu)的專用讀取電壓
- 一種實(shí)現(xiàn)無(wú)人機(jī)余度管理數(shù)據(jù)結(jié)構(gòu)的方法及裝置
- 數(shù)據(jù)展示方法及裝置、電子設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)結(jié)構(gòu)樹(shù)校驗(yàn)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





