[發明專利]一種視頻下載服務網站的識別、評估方法及系統無效
| 申請號: | 201010186795.1 | 申請日: | 2010-05-26 |
| 公開(公告)號: | CN101853300A | 公開(公告)日: | 2010-10-06 |
| 發明(設計)人: | 劉銳;朱明;易榮峰 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/00 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;陳亮 |
| 地址: | 230026*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 下載 服務 網站 識別 評估 方法 系統 | ||
技術領域
本發明涉及網絡通信領域,尤其涉及一種視頻下載服務網站的識別、評估方法及系統。
背景技術
目前,隨著多媒體技術的發展,越來越多的網站開始提供視頻下載服務,由于多媒體具有攜帶海量信息、版權特征明顯、健康度對社會影響廣泛等特點,如何自動識別出網絡中提供視頻下載服務的網站、跟蹤該網站更新的內容,并對相應網站的健康度進行評估,對于保護多媒體版權和構建健康網絡等都有著重要意義。
在現有的網絡信息處理領域中,已有較為成熟的信息抽取和內容主題識別技術,所述的信息抽取技術主要包括:自適應的網頁元數據抽取方法,結合加權樹匹配與抽取模式的聚合;模板生成網頁的數據自動抽取方法,利用檢測出的模板自動地從實例網頁中抽取數據;以及基于樣本的互聯網結構化數據抽取方法,用于實現快速自動抽取互聯網結構化數據。
所述的內容主題識別技術主要是基于統計的方法、基于知識的方法或結合兩者混合的方法。具體來說,基于統計的方法主要是利用特征項的頻率、位置特征的共現信息等,其中沒有利用額外的知識庫,例如機器可讀詞典等;基于知識的方法主要依賴于句法/語義分析器,采用的知識庫包括腳步機器可讀詞典等,其中沒有利用任何語料庫統計技術;而兩者結合的方法可以綜合表現出兩者的優勢。
但在現有技術方案中,信息抽取技術和內容主題識別技術是相互獨立工作的,現有技術中也缺乏一個有效專用的對視頻下載服務網站進行識別和評估的方法。
發明內容
本發明實施例提供了一種視頻下載服務網站的識別、評估方法及系統,能夠準確的識別出提供視頻下載服務的網站,跟蹤其最近更新的視頻信息,并對該網站的健康性、合法性進行有效的評估,從而能夠構建更為健康、安全的網絡體系。
本發明實施例提供了一種視頻下載服務網站的識別、評估方法,所述方法包括:
獲取需要處理的目標網站首頁的統一資源定位符URL列表,并調用網頁采集模塊在規則數據庫所制定的采集規則的指導下,根據所獲取的URL列表來采集所述目標網站的網頁;
通過關聯分析和深度URL探測來分析所采集到的目標網站網頁,識別是否為提供視頻下載服務的網站,同時將識別出的視頻信息更新到預先建立的視頻信息數據庫中;
若識別該網站為視頻下載服務網站且為初次訪問,則利用所述視頻信息數據庫中的視頻信息對所述網站進行相關度分析,完成對該網站的評估;
利用預先制定的信息抽取規則來抽取所述目標網站網頁視頻的相關信息,并將其存儲到所述視頻信息數據庫中,同時更新所述規則數據庫。
本發明還提供了一種視頻下載服務網站的識別、評估系統,所述系統包括:
網頁采集模塊,用于獲取需要處理的目標網站首頁的統一資源定位符URL列表,并根據所獲取的URL列表來采集所述目標網站的網頁;
識別模塊,用于通過關聯分析和深度URL探測來分析所采集到的目標網站網頁,識別是否為提供視頻下載服務的網站,同時將識別出的視頻信息更新到預先建立的視頻信息數據庫中;
評估模塊,用于在所述識別模塊識別該網站為視頻下載服務網站且為初次訪問,利用所述視頻信息數據庫中的視頻信息對所述網站進行關鍵詞匹配,完成對該網站的評估;
信息抽取模塊,用于利用預先制定的信息抽取規則來抽取所述目標網站網頁視頻的相關信息,并將其存儲到所述視頻信息數據庫中。
由上述所提供的技術方案可以看出,首先獲取需要處理的目標網站首頁的統一資源定位符URL列表,并調用網頁采集模塊根據所獲取的URL列表來采集所述目標網站的網頁;通過關聯分析和深度URL探測來分析所采集到的目標網站網頁,識別是否為提供視頻下載服務的網站,同時將識別出的視頻信息更新到預先建立的視頻信息數據庫中;若識別該網站為視頻下載服務網站且為初次訪問,則利用所述視頻信息數據庫中的視頻信息對所述網站進行相關度分析,完成對該網站的評估;利用預先制定的信息抽取規則來抽取所述目標網站網頁視頻的相關信息,并將其存儲到所述視頻信息數據庫中。通過以上技術方案,就能夠準確的識別出提供視頻下載服務的網站,跟蹤其最近更新的視頻信息,并對該網站的健康性、合法性進行有效的評估,從而能夠構建更為健康、安全的網絡體系。
附圖說明
圖1為本發明實施例所提供視頻下載服務網站的識別、評估方法的流程示意圖;
圖2為本發明實施例所提供視頻下載服務網站的識別、評估系統的結構示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010186795.1/2.html,轉載請聲明來源鉆瓜專利網。





