[發明專利]一種基于網頁結構語義的互聯網信息對象定位方法有效
| 申請號: | 201210061434.3 | 申請日: | 2012-03-11 |
| 公開(公告)號: | CN102662969A | 公開(公告)日: | 2012-09-12 |
| 發明(設計)人: | 李銀勝;廖逸;吳曉彥;顧軼靈;沈元一 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;盛志范 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 網頁 結構 語義 互聯網 信息 對象 定位 方法 | ||
技術領域
本發明屬于互聯網技術領域,具體涉及一種互聯網信息對象定位方法。
技術背景
面向特定應用領域的精準搜索技術,是輿情監測、產品比價、廣告監測等應用系統的基礎,而語義技術則是實現精準搜索的前提。目前,盡管語義技術在信息檢索、搜索引擎、產品比價、數據挖掘等領域有很多的研究和成果,但多數情況下語義技術在其中的應用是局部的、不夠系統化,所采用的面向業務領域的語義定義也不便于明確語義概念的范圍,語義結構的完整性缺乏理論依據,這些都限制了語義技術的深入研究和廣泛應用。
本發明采用的互聯網信息對象定位方法,通過使用領域語義詞典量化網頁結構語義,可以在任何網頁中判斷指定信息對象所在的區域,進而抽取出所需數據。本發明涉及的結構語義定義和計算算法,未在其他專利中發現。
發明內容
本發明的目的在于提供一種可以進一步提高互聯網信息對象精準搜索性能的互聯網信息對象定位方法。
本發明提供的互聯網信息對象定位方法,是基于網頁結構語義的互聯網信息對象定位方法,本發法通過量化語義關聯目標節點集合的信息聚集程度,在任何網頁中判斷指定信息對象所在的網頁區域,進而抽取出所需數據。
本發明方法的基本原理和思路如圖1所示。為了搜索到互聯網信息對象所在的頁面,本發明方法首先將檢索到的相關網頁的HTML代碼轉換為DOM樹結構;然后根據互聯網信息對象語義詞典為每個文本節點進行語義匹配,分配不同的語義角色,對每一個DOM樹的內部節點(非葉節點)計算其結構語義熵值,以衡量其語義豐富程度。由于熵值與網頁的層次結構密切相關,兩者綜合可以很好地反映某個節點內語義信息的聚集程度。
假設有以節點N為根節點的DOM子樹,其結構語義熵定義如下:
?
其中p(xi)為第i種語義角色在節點N下的所有文本節點中出現的比例,n為節點N下包含的語義角色的數量,I(xi)=logb(1/p(xi))指信息量,p(xi)越小,那么有某個元素被標記為第i種語義角色這個事件信息量就越大,b在信息論里一般取2。未被語義匹配的節點的語義角色視為“未知”。某個節點的結構語義熵值越大,說明在此節點下的語義角色類型越豐富。對于文本節點,其結構語義熵值為0。
對于某個DOM樹結構的每個內部節點,計算結構語義熵值后,將其中的結構語義熵最大值作為該網頁的結構語義熵值,用來衡量該網頁是否提供了需要提取的對象信息,為判斷網頁類型提供依據。
本發明方法的具體步驟進一步描述如下:
第一步:網頁預處理?
不同網站的HTML代碼風格迥異,其中部分網站采用了不規范的代碼書寫方式,為分析網頁節點層次結構帶來了難度。幾乎所有的瀏覽器在解析HTML代碼時,都包含對HTML代碼的自動糾錯,修正其錯誤的標簽嵌套(被稱為標簽補償),所以一些包含錯誤代碼的HTML頁也大多能在瀏覽器中正常進行渲染。另外,有部分網站采用了很多樣式控制標簽例如<font>、<big>、<i>等來設定網頁內容的顯示形式,而不是利用W3C的CSS(Cascading?Style?Sheets,層疊樣式表)標準來將網頁的內容與樣式進行分離,這樣會對頁面內容原本的信息結構造成一定的破壞。
為了能夠正確地獲得網頁內容的結構信息,本方法對網頁HTML代碼進行預處理,去除不必要的樣式控制標簽并修正錯誤的嵌套結構后,獲取網頁文檔對應的DOM樹結構,來進行下一步的分析處理。首先根據語義詞典中DOM元素的定義,過濾掉HTML代碼中的樣式控制的標簽,并且將<script>、<style>等與網頁實際內容無關的標簽及其內容去除;然后利用開源的NekoHTML工具包對HTML代碼進行處理,掃描HTML代碼并進行標簽補償;最后將HTML源代碼轉換成DOM樹形式,使抽取程序可以通過標準的DOM接口訪問其信息。
第二步:語義匹配
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210061434.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:磁力泵與軸承箱總成的連接結構
- 下一篇:一種具有加熱保溫效果的循環熱水泵





