[發明專利]自主發布信息的網絡服務中檢查信息內容的方法和裝置無效
| 申請號: | 200810036423.3 | 申請日: | 2008-04-22 |
| 公開(公告)號: | CN101261630A | 公開(公告)日: | 2008-09-10 |
| 發明(設計)人: | 郭諾 | 申請(專利權)人: | 郭諾 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海專利商標事務所有限公司 | 代理人: | 陳亮 |
| 地址: | 200235上海市徐匯*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自主 發布 信息 網絡服務 檢查 信息內容 方法 裝置 | ||
技術領域
本發明涉及一種在自主發布信息的網絡服務中檢查信息內容的方法和裝置,尤其一種通過對網站進行全站自動爬行掃描以及進行可選擇方式上報的在自主發布信息的網絡服務中檢查信息內容的方法和裝置。
背景技術
當前有很多網絡服務都涉及各種表現形式的由用戶自我發起的網絡信息的發布行為,我們稱作“自主發布信息的網絡服務”,具體是指可以由用戶自己填寫內容并發布可以被公眾瀏覽到的網頁的服務,如電子公告板(BBS)、博客(Blog)、評價及評述、留言板等等服務。這類網站服務的經營和管理者,為了回避用戶可能發布有害或不恰當信息的行為,通常采取下述方法來控制和管理用戶的信息發布行為:(1)關鍵字過濾方法;(2)通過人工檢查確認再行發布的方法;(3)關鍵字發現與人工檢查確認相結合的方法。
當使用關鍵字過濾方法時,設置關鍵字過多會對用戶的發布行為和內容可讀性、完整性造成影響,設置過少又達不到有效管理的目的,并且語言的多樣性也會使這種方法限制了很多符合規定的內容的發布,造成不必要的過多限制進而影響了良好的用戶體驗。
而使用人工檢查確認的方法又需要投入大量人力來完成管理以及服務的實時性受到影響。
使用關鍵字發現與人工檢查確認相結合的方法通常僅限于服務商內部組織技術力量和人力來完成對后臺信息數據的檢索和管理。這對于沒有足夠人力管理的中小服務商或者作為網絡服務的外部監管者,實現信息的24×7有效管理和關注較為困難。
發明內容
本發明的目的在于解決上述問題,提供了一種在自主發布信息的網絡服務中檢查信息內容的方法,完成了對具有大量實時更新內容的網站進行準實時的內容監管和情況獲知的需求,解決了因人力不足造成的監管不利問題,或者因使用強關鍵字過濾造成的用戶發布信息受限過多、用戶體驗下降的問題。
本發明的另一目的在于提供了一種在自主發布信息的網絡服務中檢查信息內容的裝置,完成了對具有大量實時更新內容的網站進行準實時的內容監管和情況獲知的需求,解決了因人力不足造成的監管不利問題,或者因使用強關鍵字過濾造成的用戶發布信息受限過多、用戶體驗下降的問題。根據關注內容的側重點不同,本發明也可用于對全站內容進行設定檢索策略的自動掃描來檢索和發現指定的關注內容,并上報關注人員。
本發明的技術方案為:本發明揭示了一種在自主發布信息的網絡服務中檢查信息內容的方法,包括:
(1)對指定網站的所有網頁或新增網頁進行全站范圍的自動爬行掃描;
(2)根據設定的檢索策略檢查網頁內容,獲取符合該檢索策略的設定要求的內容/頁面地址;
(3)將符合該檢索策略的設定要求的內容/頁面地址以預先設定的可選擇的方式上報。
上述的在自主發布信息的網絡服務中檢查信息內容的方法,其中,在步驟(2)中,該檢索策略包括對基于文本網頁進行關鍵字和表達式匹配的檢查、對基于特定文件格式標志進行發現的匹配檢查、對圖像圖片文件進行特定類型的圖像識別的檢查、對人類語言進行語意機器自動識別的匹配檢查中的任意一種組合。
上述的在自主發布信息的網絡服務中檢查信息內容的方法,其中,步驟(3)中該預先設定的可選擇的方式包括Email上報、電話上報、手機上報、即時通號碼上報。
上述的在自主發布信息的網絡服務中檢查信息內容的方法,其中,步驟(1)和(2)進一步包括:
(a)根據限定的時間特性條件判斷是否符合周期間隔或特定時間的控制條件,如果符合條件則進入步驟(b);
(b)動態裝填準備接受掃描的頁面URL隊列;
(c)判斷在該頁面URL隊列中是否還有可掃描的URL對象,如果有可掃描的URL對象則提取出其中一個URL對象,否則直接轉入步驟(3);
(d)建立連接并通過頭連接判斷URL對象的頁面文件可用性的基本信息,如果基本信息符合設定的可檢測條件則繼續下一步,否則將該URL對象標記為錯誤并記入錯誤隊列;
(e)進行網頁內容實體下載和初步狀態性檢查,如果檢查結果符合則繼續分析網頁內容,否則將該URL對象標記為錯誤并記入錯誤隊列;
(f)分析網頁的內容實體,進行URL檢查分析以及根據設定的檢索策略的檢查,其中URL檢查分析過程包括將可用的URL裝填入待分析的URL隊列,不符檢查條件的URL做拋棄標記并記入錯誤隊列;
(g)在被檢查的URL頁面文件是不包含URL信息的二進制類型文件時僅執行檢索策略的檢查,包括對內容實體進行檢索策略的匹配比對,當發現觸發該檢索策略的問題時將URL做標記并記入待報警的URL隊列,同時將當前頁面URL做水印標記、檢查時間標記和狀態標記。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于郭諾,未經郭諾許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810036423.3/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





