[發明專利]一種劃分網頁語義模塊的方法有效
| 申請號: | 201410243493.1 | 申請日: | 2014-06-03 |
| 公開(公告)號: | CN103984770B | 公開(公告)日: | 2017-02-22 |
| 發明(設計)人: | 袁運來 | 申請(專利權)人: | 袁運來 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙)32204 | 代理人: | 李玉平 |
| 地址: | 210000 江蘇省南京市雨*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 劃分 網頁 語義 模塊 方法 | ||
技術領域
本發明涉及一種劃分網頁語義模塊的方法,通過計算權重的方式確定敏感詞所在上級節點,自下而上通過相似性等方法迭代擴展節點集合,實現網頁語義模塊的劃分,從而屏蔽敏感信息。
背景技術
目前,互聯網是的廣告和不良信息越來越多,滲透到絕大部分網站,對成人來說尚能接受,但對于未成年卻有極大的負面作用,有必要進行屏蔽。
目前的不良信息過濾軟件主要針是對整個網頁或網站,通過檢索不良網站的URL數據庫辨認要訪問的url是否允許訪問以及檢測網頁中是否含有不良的詞語或圖片,對網頁進行屏蔽,代表軟件有IE的“內容審查程序”、“綠壩-花季護航”、“展翅鳥家長控制軟件”(原名“網絡爸爸”)、“綠色上網管家”等專業的不良信息過濾軟件都采用這種的方法。然而不良信息以各種形式存在,如游戲廣告,通常以動畫或圖片的形式嵌入在普通網頁中,很難識別。一些負面的新聞或桃色新聞經?;祀s在各大門戶網站的普通新聞中,一些大型論壇如天涯社區中也有大量的情色帖子,甚至百度貼吧中也有很多色情信息,而這些網站是主要的新聞和知識的來源(公開課、問題解答等),對整個網站或網頁進行屏蔽的方法用在這些網站上就會得不償失了,需要外科手術式的方法剔除不良信息,否則會造成因噎廢食的后果。
外科手術式的方法在廣告屏蔽軟件中被普遍采用。以“AdMuncher”、“ADSafe”、“ADBlock?plus”、“保護傘”為代表的廣告屏蔽軟件通過預先制定的規則識別網頁中的廣告,對其進行屏蔽,效果良好。但是它們無法被用來過濾不良信息,原因是目前沒有制訂針對不良信息的過濾規則。廣告的位置特征(彈出窗口、在網頁左右側)、URL特征(百度網盟推廣、谷歌Adwords推廣)都比較明顯,而不良信息的位置、ulr特征都不明顯,比如門戶網站里隨時可能有強奸、露點的新聞或新聞鏈接,論壇里隨時隨處都可能有情色的主帖或回帖,人工對各種網頁進行分析然后手動制訂規則的工作量極大,ADBlock中國區用戶用來過濾廣告的規則就達到了4萬多條,針對不良信息的過濾規則肯定要遠超過這個數目了,而且預定義規則對新生網頁的適應性比較差。
色情網站很容易識別和屏蔽,難的是對混雜在普通網站中的不良信息,因此,理想的不良信息過濾方法應能夠定位自然語言語義模塊所在的dom樹節點范圍,從而能夠單獨剔除包含不良信息的節點,而不影響其他信息的展示。
對網頁內模塊進行語義分析的方法目前主要有以下幾種:
1)采用統計學方法對一定數量的結構相似的網頁進行分析以生成網頁模板的方法。
2)基于dom樹節點間相似度的分塊方法。
3)基于視覺特征的分塊方法(VIPS及衍生算法)。
4)基于html標簽語義的分塊方法。
由于單個網頁節點所包含的文本一般比較少,經常只有一兩個句子,用統計方法進行語義分析的準確率比較低,通常需要多個相似網頁的輔助來提供準確率,而過濾軟件運行在用戶端,要處理的網頁存在不確定性,沒有相似網頁可供分析,因此不適宜采用此類技術。
不良文本信息和正常文本信息在視覺上也沒有明確的界限,不同網站的網頁結構和節點深度差異很大,尤其是位于網頁右側、下側的不健康的廣告和色情信息的節點結構和深度與主題差異很大,采用基于dom樹節點間相似度或基于視覺特征的分塊方法都存在無法準確確定語義模塊的位置--語義模塊一般由一個或者多個dom樹節點組成,而文本節點一般位于所在dom樹節點的最底層,要根據文本所在節點位置信息判斷整個語義模塊的節點集合,就相當于要根據一個點的位置確定其所在長方體的位置和大小。如必須使用這兩種方法,則前者需要預設最大樹節點深度,后者需要設定PDOC(Permitted?degree?of?coherence)的值,等于需要對待分析的網頁特征有一定了解。因此將這兩種方法用在未知dom樹特征的網頁上就會有較大概率產生語義模塊劃分過大或過小的問題。有時這兩類算法會同時使用,但也無法解決這個問題。同時VISP類依賴視覺特征的算法需要解析css和下載外部css文件,時間復雜度較高,影響用戶體驗。
基于html標簽語義的方法一般作為其他方法輔助方法使用,因為僅有html5中新增的<article>、<aside>標簽可以明確標識語義模塊,而截至目前大部分網頁并未使用這兩個標簽。同樣的,此方法也不能確定語義模塊的大小粒度。
總之,將已有的方法用于不良信息過濾面臨著無法自動確定語義模塊的分割到哪一層的問題。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于袁運來,未經袁運來許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410243493.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電機牽引器的防反轉用裝置
- 下一篇:一種鋼球渣回收裝置





