[發(fā)明專利]海量數(shù)據(jù)結(jié)構化方法、裝置、計算機設備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201810515743.0 | 申請日: | 2018-05-25 |
| 公開(公告)號: | CN108717461B | 公開(公告)日: | 2021-03-26 |
| 發(fā)明(設計)人: | 黃度新;張川;金鑫;王翼 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/35 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 林燕云 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 海量 數(shù)據(jù)結(jié)構 方法 裝置 計算機 設備 存儲 介質(zhì) | ||
本申請實施例公開了一種海量數(shù)據(jù)結(jié)構化方法、裝置、計算機設備及存儲介質(zhì)。該方法包括:將非結(jié)構化數(shù)據(jù)進行聚類,得到與預設的聚類簇數(shù)對應的聚類結(jié)果,并設置與每一簇的聚類一一對應的ID編號;在聚類結(jié)果中每一簇的聚類中均獲取一非結(jié)構化數(shù)據(jù),并將所獲取的非結(jié)構化數(shù)據(jù)對應轉(zhuǎn)化為正則表達式;將每一簇的聚類中所包括的非結(jié)構化數(shù)據(jù)均根據(jù)該聚類對應的正則表達式進行轉(zhuǎn)化,得到結(jié)構化數(shù)據(jù)。該方法實現(xiàn)由聚類算法將海量的非結(jié)構化數(shù)據(jù)做聚類,每個簇對應生成一個正則表達式并應用到該簇的所有數(shù)據(jù),這樣海量非結(jié)構化數(shù)據(jù)都能快速轉(zhuǎn)化為結(jié)構化數(shù)據(jù),能快速的滿足深度學習所需訓練數(shù)據(jù)的需求。
技術領域
本申請涉及數(shù)據(jù)結(jié)構化技術領域,尤其涉及一種海量數(shù)據(jù)結(jié)構化方法、裝置、計算機設備及存儲介質(zhì)。
背景技術
目前,深度學習的訓練需要依靠大量標注好的數(shù)據(jù)或結(jié)構化數(shù)據(jù),但是將非結(jié)構化數(shù)據(jù)變成結(jié)構化數(shù)據(jù)需要投入大量的人力成本以通過手動轉(zhuǎn)化的方式來進行數(shù)據(jù)結(jié)構化處理,這就導致獲取深度學習所需訓練數(shù)據(jù)的效率低下。
發(fā)明內(nèi)容
本申請?zhí)峁┝艘环N海量數(shù)據(jù)結(jié)構化方法、裝置、計算機設備及存儲介質(zhì),旨在解決現(xiàn)有技術中將非結(jié)構化數(shù)據(jù)變成結(jié)構化數(shù)據(jù)需要投入大量的人力成本以通過手動轉(zhuǎn)化的方式來進行數(shù)據(jù)結(jié)構化處理,導致獲取深度學習所需訓練數(shù)據(jù)的效率低下的問題。
第一方面,本申請?zhí)峁┝艘环N海量數(shù)據(jù)結(jié)構化方法,其包括:
將非結(jié)構化數(shù)據(jù)進行聚類,得到與預設的聚類簇數(shù)對應的聚類結(jié)果,并設置與每一簇的聚類一一對應的ID編號;
在聚類結(jié)果中每一簇的聚類中均獲取一非結(jié)構化數(shù)據(jù),并將所獲取的非結(jié)構化數(shù)據(jù)對應轉(zhuǎn)化為正則表達式;
將每一簇的聚類中所包括的非結(jié)構化數(shù)據(jù)均根據(jù)該聚類對應的正則表達式進行轉(zhuǎn)化,得到結(jié)構化數(shù)據(jù)。
第二方面,本申請?zhí)峁┝艘环N海量數(shù)據(jù)結(jié)構化裝置,其包括:
聚類單元,用于將非結(jié)構化數(shù)據(jù)進行聚類,得到與預設的聚類簇數(shù)對應的聚類結(jié)果,并設置與每一簇的聚類一一對應的ID編號;
正則表達式獲取單元,用于在聚類結(jié)果中每一簇的聚類中均獲取一非結(jié)構化數(shù)據(jù),并將所獲取的非結(jié)構化數(shù)據(jù)對應轉(zhuǎn)化為正則表達式;
數(shù)據(jù)結(jié)構化單元,用于將每一簇的聚類中所包括的非結(jié)構化數(shù)據(jù)均根據(jù)該聚類對應的正則表達式進行轉(zhuǎn)化,得到結(jié)構化數(shù)據(jù)。
第三方面,本申請又提供了一種計算機設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)本申請?zhí)峁┑娜我豁椝龅暮A繑?shù)據(jù)結(jié)構化方法。
第四方面,本申請還提供了一種存儲介質(zhì),其中所述存儲介質(zhì)存儲有計算機程序,所述計算機程序包括程序指令,所述程序指令當被處理器執(zhí)行時使所述處理器執(zhí)行本申請?zhí)峁┑娜我豁椝龅暮A繑?shù)據(jù)結(jié)構化方法。
本申請?zhí)峁┮环N海量數(shù)據(jù)結(jié)構化方法、裝置、計算機設備及存儲介質(zhì)。該方法通過將非結(jié)構化數(shù)據(jù)進行聚類,得到與預設的聚類簇數(shù)對應的聚類結(jié)果,并設置與每一簇的聚類一一對應的ID編號;在聚類結(jié)果中每一簇的聚類中均獲取一非結(jié)構化數(shù)據(jù),并將所獲取的非結(jié)構化數(shù)據(jù)對應轉(zhuǎn)化為正則表達式;將每一簇的聚類中所包括的非結(jié)構化數(shù)據(jù)均根據(jù)該聚類對應的正則表達式進行轉(zhuǎn)化,得到結(jié)構化數(shù)據(jù)。該方法實現(xiàn)由聚類算法將海量的非結(jié)構化數(shù)據(jù)做聚類,每個簇對應生成一個正則表達式并應用到該簇的所有數(shù)據(jù),這樣海量非結(jié)構化數(shù)據(jù)都能快速轉(zhuǎn)化為結(jié)構化數(shù)據(jù),能快速的滿足深度學習所需訓練數(shù)據(jù)的需求。
附圖說明
為了更清楚地說明本申請實施例技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本申請的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810515743.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫海量數(shù)據(jù)比對的方法
- 基于云計算的海量數(shù)據(jù)訪問處理系統(tǒng)
- 一種實現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實現(xiàn)海量數(shù)據(jù)準實時全量統(tǒng)計的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點數(shù)據(jù)聚合渲染方法、裝置、設備及存儲介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲方法
- 數(shù)據(jù)結(jié)構管理裝置、數(shù)據(jù)結(jié)構管理系統(tǒng)、數(shù)據(jù)結(jié)構管理方法以及用于記錄數(shù)據(jù)結(jié)構管理程序的計算機可讀介質(zhì)
- 電子墨水處理
- 一種數(shù)據(jù)結(jié)構傳輸方法
- 一種基于元數(shù)據(jù)的任意版本兼容數(shù)據(jù)結(jié)構存取方法及裝置
- 基于元模型的數(shù)據(jù)結(jié)構建立方法、系統(tǒng)、裝置及存儲介質(zhì)
- XML數(shù)據(jù)結(jié)構轉(zhuǎn)換方法和裝置
- 用于數(shù)據(jù)結(jié)構的專用讀取電壓
- 一種實現(xiàn)無人機余度管理數(shù)據(jù)結(jié)構的方法及裝置
- 數(shù)據(jù)展示方法及裝置、電子設備和計算機可讀存儲介質(zhì)
- 一種數(shù)據(jù)結(jié)構樹校驗方法、裝置、設備及存儲介質(zhì)





