[發明專利]基于程序切片技術的網頁過濾方法有效
| 申請號: | 201410175921.1 | 申請日: | 2014-04-28 |
| 公開(公告)號: | CN103970845B | 公開(公告)日: | 2017-03-22 |
| 發明(設計)人: | 張迎周;孫健;仉雪玲;孫韋翠;高海燕;陳棟;王子元;嵇宇 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/44 |
| 代理公司: | 南京經緯專利商標代理有限公司32200 | 代理人: | 葉連生 |
| 地址: | 210023 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 程序 切片 技術 網頁 過濾 方法 | ||
1.一種基于程序切片技術的網頁過濾方法,其特征在于該方法以圖論知識為理論基礎,以程序切片為技術手段,通過超級文本標記語言HTML以及嵌套在HTML中的一種腳本語言JavaScript中的依賴關系進行切片開發的模型,以達到對網頁源代碼進行切片處理;該方法包括文檔對象模型HTMLDOM樹構造、JavaScript方法級依賴圖、JavaScript語句級依賴圖、通過依賴圖建立切片等這幾個功能模塊;利用這些分層切片對網頁的腳本代碼進行層層切片處理,篩選出自己感興趣的內容,過濾掉不感興趣的或者不良的內容,以達到網頁過濾的效果,所包含的步驟為:
步驟1)基于DOM樹的抽取方式:
基于DOM樹的抽取方式是基于單一頁面的處理,該方式并不關心頁面的布局,首先將網頁轉換成DOM樹,根據所處理頁面的DOM樹按照某種算法把網頁內的噪音信息去除,從而抽取出正文信息;
步驟2)將HTML文檔構建成DOM樹的依賴圖
DOM把一份文檔表示為一棵樹,DOM樹中的一切是以最外層的HTML包含元素即html元素開始的,使用樹的比喻,叫做根元素,從根流出的線表示不同標記部分之間的關系;head和body元素是html根元素的孩子;title是head的孩子,head是title的父親;處在同一層次的且互不包含的兩個分支之間稱為兄弟關系,整個樹就這樣組織下去,直到最后的葉子節點變為屬性值為止;
步驟3)根據DOM依賴圖構建切片
根據已知的樹形依賴圖,根據圖的可達性算法構建出相應的切片;
步驟4)抽取JavaScript代碼
JavaScript代碼在HTML一般以標簽格式存在,編寫程序或者使用開放源碼的JavaScript引擎SpiderMonkey工具來抽取JavaScript代碼;
步驟5)構建出JavaScript程序的依賴關系
通過對JavaScript源程序進行基于掃描的語法分析,找出所有的對象、變量、方法的定義;按照邏輯結構將JavaScript分為對象層、方法層和語句層,逐層抽取程序語句間的數據依賴和控制依賴關系;通過對JavaScript源程序中賦值語句的左值右值,控制語句的謂詞、函數調用語句對實參和全局變量的影響以及對象繼承時的多態進行語義分析;針對JavaScript中動態定義對象的模式,實現對象中數據和方法的統一封裝處理;
步驟6)基于對象的系統依賴圖的構造方法
根據數據依賴和控制依賴關系構造出由對象層次子圖OHG、控制依賴子圖CDG、數據依賴子圖DDG三個基本層次組成的基于對象的系統依賴圖BOSOG;OHG描述了基本對象的結構信息和對象層次信息,其中的頂點包括每個對象的對象首部頂點、定義在每個對象中的每個方法的方法首部頂點:邊包括每個對象得對象首部頂點到與其有繼承關系的對象的相應對象首部頂點的繼承邊,由方法首部表示的方法節點到定義該方法的對象的對象首部頂點的類成員邊;當一個對象和另一個對象或者系統結合時,通過對象首部節點和對象成員邊就能夠方便的訪問方法的信息,同時圖中子對象沒有重新表示從超對象中CDG中描述了函數方法的具體語句現過程,采用繼承的方法,因此消除了對繼承方法的重復表示;用靜態后向切片的方法,包含了方法的多態性表示;DDG中包括了對象的實現,消息動態綁定到對象中的特定方法表示對象間的數據依賴關系;
步驟7)JavaScript切片算法實現
根據JavaScript自身的特點建立JavaScript語言的分層切片模型,采用對傳統的系統依賴圖進行基于對象擴充的方案進行JavaScript腳本切片;
步驟8)相關的程序片段切分與計算方法
利用兩階段圖形可達性算法逆向遍歷基于對象的系統依賴圖BOSOG,首先在BOSOG上找出從節點n出發,沿數據依賴邊或者控制依賴邊可以到達的節點進行標記,構成程序關于節點n的程序切片;其次標記在BOSOG中與n相連的節點,然后標記跟這些節點相連的節點,依次計算到不能找到新的節點為止,通過上述遍歷過程中的節點標記,計算出相關的程序片段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410175921.1/1.html,轉載請聲明來源鉆瓜專利網。





