[發明專利]基于程序切片技術的網頁過濾方法有效
| 申請號: | 201410175921.1 | 申請日: | 2014-04-28 |
| 公開(公告)號: | CN103970845B | 公開(公告)日: | 2017-03-22 |
| 發明(設計)人: | 張迎周;孫健;仉雪玲;孫韋翠;高海燕;陳棟;王子元;嵇宇 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/44 |
| 代理公司: | 南京經緯專利商標代理有限公司32200 | 代理人: | 葉連生 |
| 地址: | 210023 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 程序 切片 技術 網頁 過濾 方法 | ||
技術領域
本發明給出了一種基于程序切片技術的網頁過濾的設計方案,主要解決對網頁中不良信息的過濾問題,屬于信息安全領域。
背景技術
互聯網作為一個開放和使用信息資源的全球性網絡,已經和正在對世界各國的經濟、政治、文化、科技、軍事等各個領域產生重大影響,使人們的生活方式發生深刻變化。互聯網的開放性、互連性以及使用的高自由性、信息來源的不可控性等,使得網絡內容安全對社會的潛在威脅和危害是不可估量的。隨著互聯網的迅速普及,“網絡垃圾”已經開始侵入我們的生活;黑客也開始利用互聯網進行惡意代碼、犯罪軟件的感染和傳播,從中獲取利益;不法分子更是利用互聯網作為滲透我們國家的秘密通道。因此,如何有效地過濾這些非法數據,如何更有針對性地提取網頁內容,如何更加準確快捷地幫助用戶尋找其感興趣的信息,日益成為網絡安全領域的一個熱點問題。
以跨平臺、可擴展、結構化等為特點的XML語言(可擴展標記語言)推出已經有幾年的時間了,但據統計,互聯網上信息的載體大部分還是以HTML(超文本標記語言)網頁為主的。因此,對網頁信息的處理,尤其是對HTML網頁信息的處理已經成為互聯網信息處理的重點,并由此產生了一些與互聯網信息處理有關的研究領域,如:網頁的檢索、網頁分類、網頁信息抽取、網頁摘要和新詞預測等。這些領域幾乎都是在網頁正文信息的基礎之上建立的,網頁正文信息抽取的質量和性能會直接影響到它們的處理結果和性能,因此網頁信息的過濾與抽取對互聯網信息處理來說是一個重要的基礎性的工作和研究課題。
程序切片是一種重要的程序分析和理解技術,對程序進行切片的過程就是刪除無關代碼的過程,程序切片技術在程序調試、回歸測試、軟件維護、程序理解以及逆向工程等方面有著廣泛的應用。本專利將程序切片思想與網頁過濾技術相結合,一方面拓展了程序切片技術的應用領域,另一方面充分利用程序切片結果,優化網頁過濾方法。
參考文獻:
[1]蘇小魯,郭文明.基于DOM的HTML網頁正文信息抽取模塊的設計和實現.北京郵電大學碩士研究生學位論文,2011.
[2]張迎周,徐寶文.一種新型形式化程序切片方法.中國科學E輯:信息科學,2008,38(2):161-176.
發明內容
技術問題:本發明的目的是提出一種基于程序切片技術的網頁過濾方法。該方案從HTML文件中標簽、元素以及嵌套在里面的JavaScript之間的依賴關系出發,對依賴關系進行分析,構建一個多層次的切片方法來對HTML中各個標簽、元素以及嵌套的JavaScript的進行切片處理。針對現有的傳統切片在面向腳本語言切片功能的匱乏以及在的類似于JavaScript這種面向對象語言存在的效率和準確率上的技術瓶頸,本發明著手于客戶端腳本語言HTML里面標簽、元素以及嵌套在HTML中的JavaScript之間的依賴關系,結合程序切片技術,提出一種網頁過濾的方法。
技術方案:本發明提出了一種基于程序切片技術的網頁過濾方法,包括對HTML標簽和內容進行切片處理、嵌套在HTML中的JavaScript進行切片處理,進而達到對客戶端網頁內容的過濾。
在本發明中,所有的功能模塊都是基于程序切片技術的。在網頁過濾方法設計中,我們設計利用多鐘不同的切片思想,首先針對客戶端腳本源代碼中的HTML文件中的標簽和元素進行構造依賴關系的構造,而后在嵌套在HTML中的面向對象語言JavaScript中對象級、方法級以及語句級等等層次進行依賴圖的構建。然后對這些依賴關系,我們采取逐步求精算法來分層計算JavaScript的切片。
目前的程序切片技術主要集中在處理面向過程和面向對象的語言,而網頁過濾方法采用的是基于對象的語言(JavaScript),因此需要對基于對象語言的程序切片方法開展相關研究在網頁檢測過程中通過瀏覽器內核解析網頁源代碼并提取出源代碼,以此作為網頁檢測的依據,具體實現步驟為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410175921.1/2.html,轉載請聲明來源鉆瓜專利網。





