[發(fā)明專利]數(shù)據(jù)預(yù)處理方法、裝置及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201210567880.1 | 申請日: | 2012-12-24 |
| 公開(公告)號: | CN103077163A | 公開(公告)日: | 2013-05-01 |
| 發(fā)明(設(shè)計(jì))人: | 王曉鋒 | 申請(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F21/32 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 譚磊 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 預(yù)處理 方法 裝置 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明實(shí)施例涉及通信技術(shù),尤其涉及一種數(shù)據(jù)預(yù)處理方法、裝置及系統(tǒng)。
背景技術(shù)
隨著信息技術(shù)的飛速發(fā)展,計(jì)算機(jī)和網(wǎng)絡(luò)已成為日常辦公、通訊交流和協(xié)作互動的必備工具和途徑,在提高各公司的工作效率的同時(shí)也會使信息系統(tǒng)中的內(nèi)部數(shù)據(jù)遭到泄露,讓公司受到知識產(chǎn)權(quán)、安全和隱私等多方面的威脅,因此,需要采用數(shù)據(jù)泄露防護(hù)(Data?Loss?Prevention,簡稱為DLP)技術(shù)來解決這一問題,而DLP技術(shù)的核心是數(shù)據(jù)內(nèi)容感知技術(shù),數(shù)據(jù)內(nèi)容感知技術(shù)包括數(shù)據(jù)預(yù)處理技術(shù)和指紋提取技術(shù)。
現(xiàn)有技術(shù)中,數(shù)據(jù)預(yù)處理過程為:將文本數(shù)據(jù)作為字節(jié)序列,采用定長步距的滑動窗口在字節(jié)序列上滑動,得到K-Gram集合;指紋提取過程為:將各K-Gram進(jìn)行歸一化處理,計(jì)算各K-Gram的哈希值,得到K-Gram哈希值集合,即候選指紋集合,若K-Gram在文本數(shù)據(jù)中出現(xiàn)的頻率高,則從候選指紋集合中選擇K-Gram對應(yīng)的K-Gram哈希值,得到K-Gram指紋,以進(jìn)行指紋匹配來判斷文本數(shù)據(jù)是否包括機(jī)密數(shù)據(jù)。
在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中的數(shù)據(jù)預(yù)處理過程將文本數(shù)據(jù)作為字節(jié)序列,忽略了自然語言的語法和語義信息,無法去除語義區(qū)分度不高的字符,從而使得提取出的指紋用于DLP技術(shù)時(shí),造成數(shù)據(jù)泄露檢測精度低。
發(fā)明內(nèi)容
本發(fā)明提供一種數(shù)據(jù)預(yù)處理方法、裝置及系統(tǒng),用于提高數(shù)據(jù)泄密檢測精度。
第一方面,本發(fā)明實(shí)施例提供一種數(shù)據(jù)預(yù)處理方法,包括:
根據(jù)預(yù)設(shè)錨字符集合中的錨字符將文本數(shù)據(jù)分割成至少一個數(shù)據(jù)單元,每個數(shù)據(jù)單元均不包括所述錨字符,且每個數(shù)據(jù)單元的字符個數(shù)不超過預(yù)設(shè)的單元字符上限值;
將所述至少一個數(shù)據(jù)單元組合成至少一個數(shù)據(jù)塊,每個數(shù)據(jù)塊包括至少一個數(shù)據(jù)單元且每個數(shù)據(jù)塊的字符個數(shù)不超過預(yù)設(shè)的塊字符閾值,以對所述至少一個數(shù)據(jù)塊進(jìn)行指紋提取處理。
結(jié)合第一方面,在第一方面的第一種可能的實(shí)現(xiàn)方式中,所述根據(jù)預(yù)設(shè)錨字符集合中的錨字符將文本數(shù)據(jù)分割成至少一個數(shù)據(jù)單元,包括:
確定當(dāng)前單元滑動窗口,所述當(dāng)前單元滑動窗口的起始點(diǎn)和終止點(diǎn)均指向所述文本數(shù)據(jù)中的同一個字符;
將所述終止點(diǎn)向所述文本數(shù)據(jù)中的后續(xù)字符滑動,直至所述當(dāng)前單元滑動窗口內(nèi)的字符個數(shù)等于所述單元字符上限值時(shí),或,所述當(dāng)前單元滑動窗口內(nèi)的字符個數(shù)小于所述單元字符上限值且所述終止點(diǎn)指向的字符為所述錨字符時(shí),或,所述當(dāng)前單元滑動窗口內(nèi)的字符個數(shù)小于所述單元字符上限值且所述終止點(diǎn)指向的字符為所述文本數(shù)據(jù)的最后一個字符時(shí),停止滑動;
根據(jù)所述當(dāng)前單元滑動窗口內(nèi)除錨字符之外的所有字符,得到一個數(shù)據(jù)單元。
結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,在第一方面的第二種可能的實(shí)現(xiàn)方式中,所述根據(jù)當(dāng)前單元滑動窗口內(nèi)除錨字符之外的所有字符得到一個數(shù)據(jù)單元之后,還包括:
若所述當(dāng)前單元滑動窗口內(nèi)最后一個字符不是所述文本數(shù)據(jù)的最后一個字符,則將所述當(dāng)前單元滑動窗口的起始點(diǎn)和終止點(diǎn)均指向所述當(dāng)前單元滑動窗口內(nèi)最后一個字符在所述文本數(shù)據(jù)中的下一個字符。
結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式或第一方面的第二種可能的實(shí)現(xiàn)方式,在第一方面的第三種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述當(dāng)前單元滑動窗口內(nèi)除錨字符之外的所有字符,得到一個數(shù)據(jù)單元,包括:
若所述當(dāng)前單元滑動窗口內(nèi)除錨字符之外的字符個數(shù)不小于預(yù)設(shè)的單元字符下限值,則根據(jù)所述當(dāng)前單元滑動窗口內(nèi)除錨字符之外的所有字符,得到一個數(shù)據(jù)單元;
若所述當(dāng)前單元滑動窗口內(nèi)除錨字符之外的字符個數(shù)小于預(yù)設(shè)的單元字符下限值,則丟棄所述當(dāng)前單元滑動窗口內(nèi)的所有字符。
結(jié)合第一方面或第一方面的第一種可能的實(shí)現(xiàn)方式或第一方面的第二種可能的實(shí)現(xiàn)方式或第一方面的第三種可能的實(shí)現(xiàn)方式,在第一方面的第四種可能的實(shí)現(xiàn)方式中,所述將所述至少一個數(shù)據(jù)單元組合成至少一個數(shù)據(jù)塊,包括:
將所述至少一個數(shù)據(jù)單元按在所述文本數(shù)據(jù)中的順序依次排列;
將當(dāng)前塊滑動窗口的左沿和右沿均指向所述至少一個數(shù)據(jù)單元中的第一個數(shù)據(jù)單元;
若當(dāng)前塊滑動窗口內(nèi)的字符個數(shù)小于所述塊字符閾值,則將所述右沿向后續(xù)數(shù)據(jù)單元滑動,直至所述當(dāng)前塊滑動窗口內(nèi)的字符個數(shù)大于所述塊字符閾值時(shí)將所述右沿前向滑動一個數(shù)據(jù)單元后停止滑動,或者,直至所述當(dāng)前塊滑動窗口內(nèi)的字符個數(shù)等于所述塊字符閾值時(shí)停止滑動;
根據(jù)所述當(dāng)前塊滑動窗口內(nèi)的至少一個數(shù)據(jù)單元,得到一個數(shù)據(jù)塊。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210567880.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種無線通訊電話話筒
- 下一篇:多功能路由器
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 電鍍預(yù)處理溶液和電鍍預(yù)處理方法
- 鐵水預(yù)處理方法及其預(yù)處理裝置
- 預(yù)處理裝置及其預(yù)處理方法
- 預(yù)處理組件、使用該預(yù)處理組件進(jìn)行試樣的預(yù)處理的預(yù)處理裝置及包括該預(yù)處理裝置的分析系統(tǒng)
- 待測樣品預(yù)處理裝置、預(yù)處理筒及預(yù)處理方法
- 醋酸纖維卷曲預(yù)處理裝置、預(yù)處理液及預(yù)處理方法
- 預(yù)處理裝置
- 預(yù)處理濾芯
- 甘薯儲藏預(yù)處理設(shè)備及預(yù)處理方法
- 水樣預(yù)處理裝置、水樣預(yù)處理系統(tǒng)及水樣預(yù)處理方法





