[發明專利]基于排名網站的互聯網排行榜抓取系統有效
| 申請號: | 201210580975.7 | 申請日: | 2012-12-27 |
| 公開(公告)號: | CN103020286A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 朱其立;張至先 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 郭國中 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 排名 網站 互聯網 排行榜 抓取 系統 | ||
技術領域
本發明涉及一種互聯網數據挖掘技術領域的系統,具體是一種基于排名網站的互聯網排行榜抓取系統。
背景技術
互聯網是目前世界上最龐大的信息源,它包含著海量的數據和知識。這些信息可以有多種方式在網頁上予以呈現,如純文本,圖片,列表以及表格等。其中,后兩者相對于其他方式具有結構化的組織形式,因而其包含的信息更有實際應用價值。因此,網絡列表及表格的提取和處理已經成為互聯網和數據挖掘領域一個重要的課題。
排行榜(英文名:Top-k?List)是一種特殊的網絡列表。其定義為對一個領域根據固定的標準進行的固定個數的排名。典型的例子有,“世界上最有影響力的20個科學家”,“北京最高的十棟樓”等等。領域可以包括各種概念(如,汽車、城市、作家等等);標準可以是根據主觀的評價(如:最好的,最美的),也可以是基于客觀的事實(如:最高的,最快的等等);固定個數是指排名列表的表項數目是由列表標題中指定的(如十大,前20等等)。包含排行榜內容的網頁被稱為排名網頁,典型的排名網頁包括“世界十大海灘”,“你不能錯過的十部經典電影”等。
相比于一般的網絡列表,網絡排行榜具有更高的價值。首先,網絡排行榜數量龐大,種類豐富。據估計,目前僅英文網站中就包含超過200萬個網絡排行榜,這個數字還在隨著網絡的快速發展急速生長。第二,網絡排行榜的質量很高。普通的網絡列表只有很少一部分包含有用的信息,并且沒有固定的含義。相比之下,排行榜語義清楚,形式規范,信息量更大。第三,排行榜包含排名的信息,因此我們可以比較一個榜單中不同位置上的列表項的優劣。最后,排行榜的信息更有影響力,一般而言,排行榜的作者或編輯往往是該領域的專家,因此享有一定的權威;另一方面,人們對排名的信息更感興趣。
因此,網絡排行榜的批量獲取和分析是一項非常有意義的工作,其數據可以用來幫助建立一個知識數據庫(knowledge?base)或者自動問題回答系統(Q/A?machine)。然而,目前針對這方面的工作相對較少,而現有的網絡表格抓取系統并不能有效地用來處理排行榜網頁。
發明內容
針對現有技術中的缺陷,本發明的目的是提供一種基于排名網站的互聯網排行榜抓取系統。
根據本發明的一個方面,提供一種基于排名網站的互聯網排行榜抓取系統,包括依次連接的網頁預處理模塊、網頁標題識別模塊、候選列表抓取模塊、排行榜選取模塊以及排行榜內容后期處理模塊,候選列表抓取模塊的輸入為網頁預處理模塊和網頁標題識別模塊的輸出,其中:
網頁預處理模塊,用于將HTML格式的輸入網頁解析成為基于文件物件模型的樹狀數據結構,以便提供給網頁標題識別模塊和候選列表抓取模塊進行后續處理;
網頁標題識別模塊,用于對網頁標題進行語法分析,然后用基于機器學習方法生成的模型進行分類,判斷該網頁是否為一個排名網頁,其中:如果判斷該網頁為普通網頁,則系統輸出判斷結果,中斷退出;如果判斷該網頁為排名網頁,則提取該網頁中排行榜的領域、標準、列表項個數和時間地點信息,并提供給候選列表抓取模塊進行后續處理;
候選列表抓取模塊,用于在網頁預處理模塊中得到的樹狀數據結構進行基于HTML標簽路徑的聚類分析,獲得多個候選列表,候選列表的列表項個數應當與網頁標題識別模塊中提取到的列表項個數相同,如果沒有合適的候選列表,則判定該排行榜抓取失敗,系統輸結果,中斷退出,否則由排行榜選取模塊進行后續處理;
排行榜選取模塊,用于通過多種評價標準對多個候選列表進行打分,并選擇得分最高的候選列表為該輸入網頁的排行榜列表,評價標準包括:網頁標題的關聯程度、在網頁中的空間位置、規則模式匹配;
排行榜內容后期處理模塊,用于對排行榜選取模塊選取獲得的排行榜內容進行進一步處理,將每一個列表項的實例名與其對應的屬性特征來進行分離,最終得到一個關系數據表。
優選地,網頁標題識別模塊在對網頁進行分類之前,對標題進行預處理,預處理具體為:用正則表達式匹配的方式,去掉標題中的次要部分,確定標題的主要部分;對主要部分進行英文詞法分析,獲得單詞序列中每一個單詞的詞性和原型,并將單詞、詞性、原型構成特征表格。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210580975.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:石墨反應釜
- 下一篇:一種網頁的控制方法及瀏覽器





