[發(fā)明專利]基于ORACLE數(shù)據(jù)庫的海量數(shù)據(jù)脫敏方法有效
| 申請(qǐng)?zhí)枺?/td> | 201911375004.7 | 申請(qǐng)日: | 2019-12-27 |
| 公開(公告)號(hào): | CN111125769B | 公開(公告)日: | 2023-09-19 |
| 發(fā)明(設(shè)計(jì))人: | 程永新;宋輝;郭振宇 | 申請(qǐng)(專利權(quán))人: | 上海輕維軟件有限公司 |
| 主分類號(hào): | G06F21/62 | 分類號(hào): | G06F21/62;G06F16/22;G06F16/25 |
| 代理公司: | 上海科律專利代理事務(wù)所(特殊普通合伙) 31290 | 代理人: | 袁亞軍 |
| 地址: | 200333 上海市普陀區(qū)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 oracle 數(shù)據(jù)庫 海量 數(shù)據(jù) 方法 | ||
本發(fā)明公開了一種基于ORACLE數(shù)據(jù)庫的海量數(shù)據(jù)脫敏方法,包括如下步驟:S1:根據(jù)數(shù)據(jù)庫中需要脫敏的表的數(shù)據(jù)量,對(duì)每個(gè)表進(jìn)行數(shù)據(jù)分片;S2:根據(jù)表的數(shù)據(jù)量分配定義線程管道組數(shù)和線程數(shù)量;S3:執(zhí)行表的所有線程管道的線程從數(shù)據(jù)庫的原表中抽取數(shù)據(jù)分片脫敏后加載到目標(biāo)表中,完成數(shù)據(jù)脫敏。本發(fā)明通過表數(shù)據(jù)分片,分片均勻,提高數(shù)據(jù)抽取性能,實(shí)現(xiàn)高速數(shù)據(jù)抽??;通過直通路徑加載,并采用禁用日志提高加載性能,實(shí)現(xiàn)單表下的高速數(shù)據(jù)加載;設(shè)置線程總調(diào)度器,實(shí)現(xiàn)線程動(dòng)態(tài)分配提高加載性能,實(shí)現(xiàn)多表下的高速數(shù)據(jù)加載;全程脫敏都在內(nèi)存中操作,保證數(shù)據(jù)不落地,確保數(shù)據(jù)不泄漏。
技術(shù)領(lǐng)域
本發(fā)明涉及一種數(shù)據(jù)脫敏方法,尤其涉及一種基于ORACLE數(shù)據(jù)庫的海量數(shù)據(jù)脫敏方法。
背景技術(shù)
ORACLE數(shù)據(jù)庫是目前世界上使用最為廣泛的數(shù)據(jù)庫管理系統(tǒng),作為一個(gè)通用的數(shù)據(jù)庫系統(tǒng),它具有完整的數(shù)據(jù)管理功能;作為一個(gè)關(guān)系數(shù)據(jù)庫,它是一個(gè)完備關(guān)系的產(chǎn)品;作為分布式數(shù)據(jù)庫它實(shí)現(xiàn)了分布式處理功能。數(shù)據(jù)脫敏,指對(duì)某些敏感信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。這樣就可以在開發(fā)、測(cè)試和其它非生產(chǎn)環(huán)境以及外包環(huán)境中安全地使用脫敏后的真實(shí)數(shù)據(jù)集。ORACLE數(shù)據(jù)庫作為關(guān)系數(shù)據(jù)庫時(shí),大量的敏感信息需要進(jìn)行脫敏處理。
現(xiàn)有的脫敏方法有以下兩種:
方案1:使用簡單的JDBC方式脫敏。
方案2:數(shù)據(jù)庫維護(hù)人員通過執(zhí)行ORACLE數(shù)據(jù)泵腳本將生產(chǎn)庫A數(shù)據(jù)同步到測(cè)試庫B,然后再對(duì)敏感字段執(zhí)行update語法更新敏感數(shù)據(jù)。
現(xiàn)有的脫敏方法存在以下問題:
現(xiàn)有方案1會(huì)導(dǎo)致下面的問題:JDBC能抽取和加載數(shù)據(jù),但當(dāng)單表的數(shù)據(jù)量達(dá)到億級(jí)時(shí),會(huì)造成抽取和加載的性能都非常慢,甚至可能出現(xiàn)查詢超時(shí)現(xiàn)象,無法完成脫敏任務(wù)的缺點(diǎn)。
現(xiàn)有方案2會(huì)導(dǎo)致下面的問題:因?yàn)閿?shù)據(jù)泵要導(dǎo)出文件,要兩倍于源始數(shù)據(jù)的空間,如果數(shù)據(jù)量過大會(huì)導(dǎo)致源數(shù)據(jù)庫服務(wù)器硬盤空間不足;文件導(dǎo)出將導(dǎo)致在脫敏過程中敏感數(shù)據(jù)外泄,用update語法更新導(dǎo)致脫敏后,數(shù)據(jù)會(huì)失去數(shù)據(jù)特征且無法保證業(yè)務(wù)關(guān)聯(lián)性,或造成脫敏后數(shù)據(jù)變得單一;操作難度大,人工操作容易遺漏。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種基于ORACLE數(shù)據(jù)庫的海量數(shù)據(jù)脫敏方法,解決上述問題。
本發(fā)明為解決上述技術(shù)問題而采用的技術(shù)方案是提供一種基于ORACLE數(shù)據(jù)庫的海量數(shù)據(jù)脫敏方法,包括如下步驟:
S1:根據(jù)數(shù)據(jù)庫中需要脫敏的表的數(shù)據(jù)量,對(duì)每個(gè)表進(jìn)行數(shù)據(jù)分片;
S2:根據(jù)表的數(shù)據(jù)量分配定義線程管道組數(shù)和線程數(shù)量;
S3:執(zhí)行表的所有線程管道的線程從數(shù)據(jù)庫的原表中抽取數(shù)據(jù)分片脫敏后加載到目標(biāo)表中,完成數(shù)據(jù)脫敏。
進(jìn)一步的,所述表的數(shù)據(jù)分片為均勻分片,具體包括:每個(gè)表單獨(dú)使用ORACLE的sample()函數(shù)均勻取出表的N個(gè)物理存儲(chǔ)地址ROWID,物理存儲(chǔ)地址的數(shù)量根據(jù)ORACLE的表大小動(dòng)態(tài)修改,直到抽取到合適的ROWID數(shù)量,然后將ROWID排序后兩兩為一區(qū)間劃分成多個(gè)分片,分片完成后,表的所有分片SQL都放入該表的分片隊(duì)列;如果表為普通表,則對(duì)表進(jìn)行一次分片,如果是分區(qū)表,則對(duì)表的每個(gè)分區(qū)都進(jìn)行一次分片。
進(jìn)一步的,所述表數(shù)據(jù)進(jìn)行分區(qū)切片后,對(duì)分片進(jìn)行重新排序,把不同的分區(qū)映射到不同磁盤進(jìn)行I/O平衡,使多個(gè)線程能輪詢獲取到不同分區(qū)的分片,多個(gè)線程同時(shí)操作不同的磁盤。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海輕維軟件有限公司,未經(jīng)上海輕維軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911375004.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計(jì)算機(jī)的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過限制訪問或處理程序或過程
- 一種Oracle監(jiān)控系統(tǒng)
- oracle數(shù)據(jù)庫訪問方法
- 一種Oracle的自動(dòng)化定制安裝部署方法
- 一種Oracle單機(jī)一鍵自動(dòng)部署方法
- 一種Oracle和Tomcat組合一鍵自動(dòng)部署方法
- 一種Oracle數(shù)據(jù)庫自動(dòng)部署工具及方法
- 一種部署OracleRAC的方法及裝置
- 基于日志解析的源端Oracle數(shù)據(jù)庫DDL同步方法及設(shè)備
- 一種無認(rèn)證的Oracle版本探測(cè)的方法
- 用于Oracle數(shù)據(jù)庫的排障策略生成方法裝置、處理器和存儲(chǔ)介質(zhì)
- 數(shù)據(jù)庫
- 數(shù)據(jù)庫管理系統(tǒng)及數(shù)據(jù)庫
- 數(shù)據(jù)庫構(gòu)筑裝置、數(shù)據(jù)庫檢索裝置、數(shù)據(jù)庫裝置、數(shù)據(jù)庫構(gòu)筑方法、以及數(shù)據(jù)庫檢索方法
- 數(shù)據(jù)庫和數(shù)據(jù)庫處理方法
- 數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)庫更新方法、數(shù)據(jù)庫以及數(shù)據(jù)庫更新程序
- 容器數(shù)據(jù)庫
- 數(shù)據(jù)庫同步方法及數(shù)據(jù)庫
- 一種MongoDB數(shù)據(jù)庫對(duì)象復(fù)制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲(chǔ)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)庫語句執(zhí)行方法及裝置
- 一種數(shù)據(jù)庫海量數(shù)據(jù)比對(duì)的方法
- 基于云計(jì)算的海量數(shù)據(jù)訪問處理系統(tǒng)
- 一種實(shí)現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲(chǔ)方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實(shí)現(xiàn)海量數(shù)據(jù)準(zhǔn)實(shí)時(shí)全量統(tǒng)計(jì)的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點(diǎn)數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲(chǔ)方法





