[發(fā)明專利]基于mbx格式的郵件正文的獲取方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310521274.0 | 申請日: | 2013-10-28 |
| 公開(公告)號: | CN103559244A | 公開(公告)日: | 2014-02-05 |
| 發(fā)明(設(shè)計)人: | 吳子章;劉申 | 申請(專利權(quán))人: | 東軟集團(tuán)股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京鴻元知識產(chǎn)權(quán)代理有限公司 11327 | 代理人: | 陳英俊 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 mbx 格式 郵件 正文 獲取 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)數(shù)據(jù)通信技術(shù)領(lǐng)域,更為具體地,涉及一種基于mbx格式的郵件正文的獲取方法及系統(tǒng)。
背景技術(shù)
隨著社會的進(jìn)步和技術(shù)的發(fā)展,電子郵件已經(jīng)成為人們工作中主要的通信手段。如今互聯(lián)網(wǎng)上對于郵件正文的獲取與過濾,扮演著防止數(shù)據(jù)泄露與攔截垃圾郵件等重要角色,越來越受到網(wǎng)絡(luò)管理者的關(guān)注與重視,對于海量的mbx格式郵件正文的提取,直接為不同操作系統(tǒng)的防止數(shù)據(jù)泄露與垃圾郵件過濾等提供重要的原材料,在整個網(wǎng)絡(luò)防護(hù)系統(tǒng)中起到提取關(guān)鍵信息的預(yù)處理作用,同時其性能直接影響到整個防護(hù)系統(tǒng)乃至整個網(wǎng)絡(luò)拓?fù)涞耐掏铝俊?/p>
在當(dāng)前郵件正文的提取方法中,mbx格式的郵件因存儲多封郵件,處理起來會消耗很多時間,當(dāng)防火墻或網(wǎng)上的服務(wù)器需要處理大量mbx格式的郵件數(shù)據(jù)庫時,獲取郵件正文的時間消耗會與郵件大小成正比例增加,在獲取郵件正文的過程中,需要對郵件的頭部特征進(jìn)行搜索與定位,而傳統(tǒng)的特征搜索算法無論是多模還是單模,都需要對郵件內(nèi)容進(jìn)行反復(fù)地遍歷,以致消耗很多的時間;同時,頻繁地訪問磁盤也對系統(tǒng)的性能帶來極大的損耗,延長了海量mbx格式郵件正文提取的時間。
發(fā)明內(nèi)容
鑒于上述問題,本發(fā)明的目的是提供一種基于mbx格式的郵件正文的獲取方法及系統(tǒng),以解決在提取mbx格式郵件正文的過程中,頻繁訪問磁盤造成系統(tǒng)性能損耗的問題,提高提取mbx格式郵件正文的效率。
本發(fā)明提供一種基于mbx格式的郵件正文的獲取方法,包括:
將mbx格式的郵件批量映射到內(nèi)存;將批量映射到內(nèi)存的mbx格式的郵件的首行轉(zhuǎn)換成模式串,并將模式串的前六個字節(jié)作為模式子串,在批量映射到內(nèi)存的mbx格式的郵件除首行之外的其余行的首部位置添加標(biāo)志;
將每行標(biāo)志后的六個字節(jié)形成數(shù)據(jù)塊映射到緩存上,然后對數(shù)據(jù)塊進(jìn)行分組,篩選出每組數(shù)據(jù)塊中的模式子串,并記錄模式子串的位置;并且,通過查找每行首部位置的標(biāo)志確定并記錄空行的位置;
通過匹配空行的位置和模式子串的位置確定郵件正文的位置;
根據(jù)所確定的郵件正文的位置獲取郵件正文。
本發(fā)明還提供一種基于mbx格式的郵件正文的獲取系統(tǒng),包括:
郵件映射單元,用于將mbx格式的郵件批量映射到內(nèi)存;
模式串轉(zhuǎn)換單元,用于將批量映射到內(nèi)存的mbx格式的郵件的首行轉(zhuǎn)換成模式串;
模式子串生成單元,用于將模式串的前六個字節(jié)作為模式子串;
標(biāo)志添加單元,用于在批量映射到內(nèi)存的mbx格式的郵件除首行之外的其余行的首部位置添加標(biāo)志;
數(shù)據(jù)塊映射單元,用于將每行標(biāo)志后的六個字節(jié)形成數(shù)據(jù)塊映射到緩存上;
數(shù)據(jù)塊分組單元,用于對映射到緩存上的數(shù)據(jù)塊進(jìn)行分組;
模式子串篩選單元,用于篩選出每組數(shù)據(jù)塊中的模式子串;
模式子串記錄單元,用于記錄篩選出的模式子串的位置;
空行位置確定單元,用于通過查找標(biāo)志確定空行的位置;
空行位置記錄單元,用于記錄確定出的空行的位置;
郵件正文確定單元,用于通過匹配空行的位置和模式子串的位置確定郵件正文的位置;
郵件正文獲取單元,用于根據(jù)所確定的郵件正文的位置獲取郵件正文。
利用上述根據(jù)本發(fā)明提供的基于mbx格式的郵件正文的獲取方法及系統(tǒng),通過批量地將郵件數(shù)據(jù)映射到內(nèi)存,來減少頻繁訪問磁盤帶來的損耗,通過跨行匹配、與在緩存上進(jìn)行的跨數(shù)據(jù)塊匹配,極大地降低復(fù)雜模式串的匹配幾率,根據(jù)mbx格式特征實時地調(diào)節(jié)數(shù)據(jù)塊尺度,從而提升模式子串預(yù)匹配的性能,而且本發(fā)明采用的分段hash映射方法,第一段的hash查詢與第二段的精確過濾相結(jié)合,將沖突發(fā)生的概率降到百萬分之一,由于模式匹配過程的性能提升,帶來整體郵件正文提取性能的提升。
為了實現(xiàn)上述以及相關(guān)目的,本發(fā)明的一個或多個方面包括后面將詳細(xì)說明并在權(quán)利要求中特別指出的特征。下面的說明以及附圖詳細(xì)說明了本發(fā)明的某些示例性方面。然而,這些方面指示的僅僅是可使用本發(fā)明的原理的各種方式中的一些方式。此外,本發(fā)明旨在包括所有這些方面以及它們的等同物。
附圖說明
通過參考以下結(jié)合附圖的說明及權(quán)利要求書的內(nèi)容,并且隨著對本發(fā)明的更全面理解,本發(fā)明的其它目的及結(jié)果將更加明白及易于理解。在附圖中:
圖1為mbx格式郵件的結(jié)構(gòu)圖;
圖2為根據(jù)本發(fā)明的基于mbx格式的郵件正文的獲取方法的流程圖;
圖3為根據(jù)本發(fā)明實施例的基于mbx格式的郵件正文的獲取方法的流程圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東軟集團(tuán)股份有限公司,未經(jīng)東軟集團(tuán)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310521274.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





