[發明專利]一種文本消息檢測算法和基于該算法的個性化網絡消息發布監視方法無效
| 申請號: | 200710040025.4 | 申請日: | 2007-04-26 |
| 公開(公告)號: | CN101296219A | 公開(公告)日: | 2008-10-29 |
| 發明(設計)人: | 朱佳亭 | 申請(專利權)人: | 上海市靜安區教育學院附屬學校 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L12/54;G06F17/30 |
| 代理公司: | 上海天翔知識產權代理有限公司 | 代理人: | 劉粉寶 |
| 地址: | 200040*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 消息 檢測 算法 基于 個性化 網絡 發布 監視 方法 | ||
1、文本消息檢測算法,其特征在于是基于http協議控件而實現的,具體包括如下步驟:
(1).獲取代表文本內容的代碼
a.從源代碼文件中去掉CDATA區域內的所有代碼,即從“<![CDATA[”開始到“]]>”結束;
b.將源代碼中的所有標簽中的英文字母轉換成小寫字母,即從“<”開始到“>”結束;
c.去掉描述顯示風格的代碼,即從“<style”開始到“/style>”結束;
d.去掉腳本代碼,即從“<script”開始到“/script>”結束;
e.去掉注釋標簽,即從“<!--”開始到“-->”結束;
f.去掉剩下來的所有標簽,這樣便得到了代表文本內容的源代碼;
(2).比對文本消息內容
a.從經步驟(1)處理后的源代碼中去掉阿拉伯數字0-9;
b.去掉中文“一”到“十”這十個字獲得網頁代碼文件;
c.經過上述處理得到的網頁代碼文件可用于檢測文本消息的發布;如果當前網頁的代碼與保存在本地的代碼經上述處理后發現有不一致的地方,則說明在當前網頁上很可能有新消息發布。將當前網頁代碼中不同于保存在本地的網頁代碼的那部分內容紀錄下來,并暫時保存起來。
d.如果連續測到第三步中暫時保存的內容沒有變化,那么這部分內容就屬于新發布的消息;否則有可能是一些隨機產生的文本信息;
(3).提取新發布消息的標題
a.在步驟(1)獲取文本消息源代碼的過程中,將標簽外夾在標簽與標簽之間的內容作為候選消息的內容保存下來,這樣一來保存下來的文本信息全是由這樣一條條候選消息組成的文件,每一條候選消息占一行。
b.在步驟(2)的比對文本消息過程中也就是對候選消息進行比對,并記錄下新發現的候選消息的行號;
c.根據該行號選出候選消息,作為監測到的新消息的標題;候選消息的內容與步驟(2)中的c步驟暫時保存的文本代碼不完全相同;
d.從這條候選消息中將一些特殊的符號替換成可顯示的格式,以得到完整的可顯示的文本消息的標題;
e.將文本消息的標題轉換成軟件控件可顯示的代碼。
2、一種基于權利要求1所述的文本消息檢測算法的個性化網絡消息發布監視方法,其特征在于,包括如下步驟:
1).設置關注網頁的網址;
2).從網上獲取該網頁的源代碼;
3).保存該網頁的源代碼的同時顯示該網頁的內容;
4).設置兩次檢測時間間隔并啟動監視功能;
5).若兩次檢測間隔時間到,從網上再次獲取源代碼;
6).處理兩次源代碼,轉為文本消息;
7).比較兩次文本消息,若兩次文本消息無區別,則返回步驟5繼續進行檢測;若有區別,則跳出提示窗口進行顯示;
8).閱讀該網頁新發布消息的內容后,把新消息的源代碼保存,取代原來的源代碼,然后返回則返回步驟5繼續進行檢測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海市靜安區教育學院附屬學校,未經上海市靜安區教育學院附屬學校許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710040025.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:植物源揮發性有機物的測試方法
- 下一篇:一種數據庫應用方法及裝置





