[發(fā)明專利]一種信息采集還原方法在審
| 申請(qǐng)?zhí)枺?/td> | 201611181752.8 | 申請(qǐng)日: | 2016-12-20 |
| 公開(公告)號(hào): | CN106777153A | 公開(公告)日: | 2017-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 李慧 | 申請(qǐng)(專利權(quán))人: | 太極計(jì)算機(jī)股份有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;H04L29/08 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 100083 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 信息 采集 還原 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)信息采集技術(shù)領(lǐng)域,特別是一種信息采集還原方法。
背景技術(shù)
WEB類應(yīng)用基于HTTP協(xié)議,種類繁多,包括目前比較熱門的社交類網(wǎng)站、郵箱類網(wǎng)站、BBS類網(wǎng)站、博客類網(wǎng)站、游戲類網(wǎng)站、搜索類網(wǎng)站、在線聊天類網(wǎng)站等。還原WEB類應(yīng)用的登陸與內(nèi)容,對(duì)網(wǎng)絡(luò)安全、色情監(jiān)控等有著非常重要的作用。傳統(tǒng)的協(xié)議還原方法是基于數(shù)據(jù)包搜索的,按順序分析每個(gè)HTTP數(shù)據(jù)包,從而分析出相應(yīng)的應(yīng)用協(xié)議,并在HTTP內(nèi)容字段分析出登陸信息,發(fā)帖信息等內(nèi)容。在網(wǎng)絡(luò)流量小,WEB應(yīng)用種類少的網(wǎng)絡(luò)環(huán)境中,基于數(shù)據(jù)包搜索的方法也是可行的,但是如今的網(wǎng)絡(luò)流量越來(lái)越大,WEB類應(yīng)用在所有網(wǎng)絡(luò)應(yīng)用中所占的比例越來(lái)越高,而基于數(shù)據(jù)包搜索的方法的效率也越來(lái)越低,同時(shí)從事協(xié)議還原人員的工作量也越加繁重,所以傳統(tǒng)協(xié)議還原的方法已經(jīng)不能滿足如今的網(wǎng)絡(luò)環(huán)境。需要一種新的方法來(lái)還原WEB類應(yīng)用的內(nèi)容。
發(fā)明內(nèi)容
本發(fā)明需要解決的技術(shù)問(wèn)題是一種能快速有效復(fù)原數(shù)據(jù)的信息采集還原方法。
為解決上述的技術(shù)問(wèn)題,本發(fā)明的一種信息采集還原方法,包括以下步驟,
(1)根據(jù)WEB類應(yīng)用數(shù)據(jù)包特征,寫成WEB類應(yīng)用模板文件;
(2)讀取模板文件并解析,把解析出的關(guān)鍵字組成一個(gè)結(jié)構(gòu)體,形成模板鏈表;
(3)將待還原WEB類應(yīng)用數(shù)據(jù)包的HTTP頭部解析,并取得頭部?jī)?nèi)容;
(4)采用匹配算法,將解析出的頭部?jī)?nèi)容中的關(guān)鍵字與模板中的關(guān)鍵字進(jìn)行比對(duì),找出匹配的模板;
(5)解析出待還原WEB類應(yīng)用數(shù)據(jù)包HTTP頭部?jī)?nèi)容的關(guān)鍵字和關(guān)鍵內(nèi)容位置,并將模板描述的關(guān)鍵字與解析出的關(guān)鍵字進(jìn)行比對(duì),從模板中取出匹配的內(nèi)容;
(6)將匹配的內(nèi)容按數(shù)據(jù)庫(kù)表格式化輸出,得到還原的WEB類應(yīng)用內(nèi)容。
進(jìn)一步的,所述步驟(1)中采用WEB類描述語(yǔ)言將模板文件分為三部分,第一部分為模板識(shí)別部分,包括URL、HOST、POST/GET的內(nèi)容,由分析某類WEB應(yīng)用數(shù)據(jù)包HTTP頭部得到;第二部分為關(guān)鍵內(nèi)容描述部分,包括關(guān)鍵字,關(guān)鍵內(nèi)容在數(shù)據(jù)包中的起始位置,關(guān)鍵內(nèi)容長(zhǎng)度,由分析某類WEB應(yīng)用數(shù)據(jù)包所得;第三部分為數(shù)據(jù)類型。
進(jìn)一步的,所述步驟(2)中結(jié)構(gòu)體包括模板識(shí)別部分、關(guān)鍵內(nèi)容描述部分、數(shù)據(jù)類型部分。
進(jìn)一步的,所述步驟(4)中找出匹配模板的方法為:先用解析出的HOST字段比對(duì),然后再將URL字段進(jìn)行精確比對(duì),找出匹配的模板。采用改進(jìn)式Boyer-Moore算法。
進(jìn)一步的,所述步驟(5)中解析WEB類應(yīng)用數(shù)據(jù)包HTTP內(nèi)容部分的方法為:利用WEB類應(yīng)用數(shù)據(jù)包中的分割符將登陸信息或發(fā)貼內(nèi)容取出,組成格式化內(nèi)容結(jié)構(gòu)體鏈表。
采用上述方法后,本發(fā)明的信息采集還原方法的數(shù)據(jù)包搜索的方法的效率得到有效的提高,同時(shí)減輕了從事協(xié)議還原人員的工作量,滿足了如今的網(wǎng)絡(luò)環(huán)境。
附圖說(shuō)明
下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
圖1為本發(fā)明模板文件導(dǎo)入的流程圖。
具體實(shí)施方式
如圖1所示,本發(fā)明的一種信息采集還原方法,包括以下步驟,
(1)根據(jù)WEB類應(yīng)用數(shù)據(jù)包特征,寫成WEB類應(yīng)用模板文件;
(2)讀取模板文件并解析,把解析出的關(guān)鍵字組成一個(gè)結(jié)構(gòu)體,形成模板鏈表;
(3)將待還原WEB類應(yīng)用數(shù)據(jù)包的HTTP頭部解析,并取得頭部?jī)?nèi)容;
(4)采用匹配算法,將解析出的頭部?jī)?nèi)容中的關(guān)鍵字與模板中的關(guān)鍵字進(jìn)行比對(duì),找出匹配的模板;
(5)解析出待還原WEB類應(yīng)用數(shù)據(jù)包HTTP頭部?jī)?nèi)容的關(guān)鍵字和關(guān)鍵內(nèi)容位置,并將模板描述的關(guān)鍵字與解析出的關(guān)鍵字進(jìn)行比對(duì),從模板中取出匹配的內(nèi)容;
(6)將匹配的內(nèi)容按數(shù)據(jù)庫(kù)表格式化輸出,得到還原的WEB類應(yīng)用內(nèi)容。
進(jìn)一步的,所述步驟(1)中采用WEB類描述語(yǔ)言將模板文件分為三部分,第一部分為模板識(shí)別部分,包括URL、HOST、POST/GET的內(nèi)容,由分析某類WEB應(yīng)用數(shù)據(jù)包HTTP頭部得到;第二部分為關(guān)鍵內(nèi)容描述部分,包括關(guān)鍵字,關(guān)鍵內(nèi)容在數(shù)據(jù)包中的起始位置,關(guān)鍵內(nèi)容長(zhǎng)度,由分析某類WEB應(yīng)用數(shù)據(jù)包所得;第三部分為數(shù)據(jù)類型。
進(jìn)一步的,所述步驟(2)中結(jié)構(gòu)體包括模板識(shí)別部分、關(guān)鍵內(nèi)容描述部分、數(shù)據(jù)類型部分。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于太極計(jì)算機(jī)股份有限公司,未經(jīng)太極計(jì)算機(jī)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611181752.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





