[發(fā)明專利]一種文本消息檢測(cè)算法和基于該算法的個(gè)性化網(wǎng)絡(luò)消息發(fā)布監(jiān)視方法無效
| 申請(qǐng)?zhí)枺?/td> | 200710040025.4 | 申請(qǐng)日: | 2007-04-26 |
| 公開(公告)號(hào): | CN101296219A | 公開(公告)日: | 2008-10-29 |
| 發(fā)明(設(shè)計(jì))人: | 朱佳亭 | 申請(qǐng)(專利權(quán))人: | 上海市靜安區(qū)教育學(xué)院附屬學(xué)校 |
| 主分類號(hào): | H04L29/06 | 分類號(hào): | H04L29/06;H04L12/54;G06F17/30 |
| 代理公司: | 上海天翔知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人: | 劉粉寶 |
| 地址: | 200040*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 消息 檢測(cè) 算法 基于 個(gè)性化 網(wǎng)絡(luò) 發(fā)布 監(jiān)視 方法 | ||
1、文本消息檢測(cè)算法,其特征在于是基于http協(xié)議控件而實(shí)現(xiàn)的,具體包括如下步驟:
(1).獲取代表文本內(nèi)容的代碼
a.從源代碼文件中去掉CDATA區(qū)域內(nèi)的所有代碼,即從“<![CDATA[”開始到“]]>”結(jié)束;
b.將源代碼中的所有標(biāo)簽中的英文字母轉(zhuǎn)換成小寫字母,即從“<”開始到“>”結(jié)束;
c.去掉描述顯示風(fēng)格的代碼,即從“<style”開始到“/style>”結(jié)束;
d.去掉腳本代碼,即從“<script”開始到“/script>”結(jié)束;
e.去掉注釋標(biāo)簽,即從“<!--”開始到“-->”結(jié)束;
f.去掉剩下來的所有標(biāo)簽,這樣便得到了代表文本內(nèi)容的源代碼;
(2).比對(duì)文本消息內(nèi)容
a.從經(jīng)步驟(1)處理后的源代碼中去掉阿拉伯?dāng)?shù)字0-9;
b.去掉中文“一”到“十”這十個(gè)字獲得網(wǎng)頁代碼文件;
c.經(jīng)過上述處理得到的網(wǎng)頁代碼文件可用于檢測(cè)文本消息的發(fā)布;如果當(dāng)前網(wǎng)頁的代碼與保存在本地的代碼經(jīng)上述處理后發(fā)現(xiàn)有不一致的地方,則說明在當(dāng)前網(wǎng)頁上很可能有新消息發(fā)布。將當(dāng)前網(wǎng)頁代碼中不同于保存在本地的網(wǎng)頁代碼的那部分內(nèi)容紀(jì)錄下來,并暫時(shí)保存起來。
d.如果連續(xù)測(cè)到第三步中暫時(shí)保存的內(nèi)容沒有變化,那么這部分內(nèi)容就屬于新發(fā)布的消息;否則有可能是一些隨機(jī)產(chǎn)生的文本信息;
(3).提取新發(fā)布消息的標(biāo)題
a.在步驟(1)獲取文本消息源代碼的過程中,將標(biāo)簽外夾在標(biāo)簽與標(biāo)簽之間的內(nèi)容作為候選消息的內(nèi)容保存下來,這樣一來保存下來的文本信息全是由這樣一條條候選消息組成的文件,每一條候選消息占一行。
b.在步驟(2)的比對(duì)文本消息過程中也就是對(duì)候選消息進(jìn)行比對(duì),并記錄下新發(fā)現(xiàn)的候選消息的行號(hào);
c.根據(jù)該行號(hào)選出候選消息,作為監(jiān)測(cè)到的新消息的標(biāo)題;候選消息的內(nèi)容與步驟(2)中的c步驟暫時(shí)保存的文本代碼不完全相同;
d.從這條候選消息中將一些特殊的符號(hào)替換成可顯示的格式,以得到完整的可顯示的文本消息的標(biāo)題;
e.將文本消息的標(biāo)題轉(zhuǎn)換成軟件控件可顯示的代碼。
2、一種基于權(quán)利要求1所述的文本消息檢測(cè)算法的個(gè)性化網(wǎng)絡(luò)消息發(fā)布監(jiān)視方法,其特征在于,包括如下步驟:
1).設(shè)置關(guān)注網(wǎng)頁的網(wǎng)址;
2).從網(wǎng)上獲取該網(wǎng)頁的源代碼;
3).保存該網(wǎng)頁的源代碼的同時(shí)顯示該網(wǎng)頁的內(nèi)容;
4).設(shè)置兩次檢測(cè)時(shí)間間隔并啟動(dòng)監(jiān)視功能;
5).若兩次檢測(cè)間隔時(shí)間到,從網(wǎng)上再次獲取源代碼;
6).處理兩次源代碼,轉(zhuǎn)為文本消息;
7).比較兩次文本消息,若兩次文本消息無區(qū)別,則返回步驟5繼續(xù)進(jìn)行檢測(cè);若有區(qū)別,則跳出提示窗口進(jìn)行顯示;
8).閱讀該網(wǎng)頁新發(fā)布消息的內(nèi)容后,把新消息的源代碼保存,取代原來的源代碼,然后返回則返回步驟5繼續(xù)進(jìn)行檢測(cè)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海市靜安區(qū)教育學(xué)院附屬學(xué)校,未經(jīng)上海市靜安區(qū)教育學(xué)院附屬學(xué)校許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710040025.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 檢測(cè)裝置、檢測(cè)方法和檢測(cè)組件
- 檢測(cè)方法、檢測(cè)裝置和檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法以及記錄介質(zhì)
- 檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)設(shè)備及檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)
- 檢測(cè)組件、檢測(cè)裝置以及檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法及檢測(cè)程序
- 檢測(cè)電路、檢測(cè)裝置及檢測(cè)系統(tǒng)





