[發(fā)明專利]基于排名網(wǎng)站的互聯(lián)網(wǎng)排行榜抓取系統(tǒng)有效
| 申請?zhí)枺?/td> | 201210580975.7 | 申請日: | 2012-12-27 |
| 公開(公告)號: | CN103020286A | 公開(公告)日: | 2013-04-03 |
| 發(fā)明(設(shè)計)人: | 朱其立;張至先 | 申請(專利權(quán))人: | 上海交通大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海漢聲知識產(chǎn)權(quán)代理有限公司 31236 | 代理人: | 郭國中 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 排名 網(wǎng)站 互聯(lián)網(wǎng) 排行榜 抓取 系統(tǒng) | ||
1.一種基于排名網(wǎng)站的互聯(lián)網(wǎng)排行榜抓取系統(tǒng),其特征在于,包括依次連接的網(wǎng)頁預(yù)處理模塊、網(wǎng)頁標題識別模塊、候選列表抓取模塊、排行榜選取模塊以及排行榜內(nèi)容后期處理模塊,候選列表抓取模塊的輸入為網(wǎng)頁預(yù)處理模塊和網(wǎng)頁標題識別模塊的輸出,其中:
網(wǎng)頁預(yù)處理模塊,用于將HTML格式的輸入網(wǎng)頁解析成為基于文件物件模型的樹狀數(shù)據(jù)結(jié)構(gòu),以便提供給網(wǎng)頁標題識別模塊和候選列表抓取模塊進行后續(xù)處理;
網(wǎng)頁標題識別模塊,用于對網(wǎng)頁標題進行語法分析,然后用基于機器學習方法生成的模型進行分類,判斷該網(wǎng)頁是否為一個排名網(wǎng)頁,其中:如果判斷該網(wǎng)頁為普通網(wǎng)頁,則系統(tǒng)輸出判斷結(jié)果,中斷退出;如果判斷該網(wǎng)頁為排名網(wǎng)頁,則提取該網(wǎng)頁中排行榜的領(lǐng)域、標準、列表項個數(shù)和時間地點信息,并提供給候選列表抓取模塊進行后續(xù)處理;
候選列表抓取模塊,用于在網(wǎng)頁預(yù)處理模塊中得到的樹狀數(shù)據(jù)結(jié)構(gòu)進行基于HTML標簽路徑的聚類分析,獲得多個候選列表,候選列表的列表項個數(shù)應(yīng)當與網(wǎng)頁標題識別模塊中提取到的列表項個數(shù)相同,如果沒有合適的候選列表,則判定該排行榜抓取失敗,系統(tǒng)輸結(jié)果,中斷退出,否則由排行榜選取模塊進行后續(xù)處理;
排行榜選取模塊,用于通過多種評價標準對多個候選列表進行打分,并選擇得分最高的候選列表為該輸入網(wǎng)頁的排行榜列表,評價標準包括:網(wǎng)頁標題的關(guān)聯(lián)程度、在網(wǎng)頁中的空間位置、規(guī)則模式匹配;
排行榜內(nèi)容后期處理模塊,用于對排行榜選取模塊選取獲得的排行榜內(nèi)容進行進一步處理,將每一個列表項的實例名與其對應(yīng)的屬性特征來進行分離,最終得到一個關(guān)系數(shù)據(jù)表。
2.根據(jù)權(quán)利要求1所述的基于排名網(wǎng)站的互聯(lián)網(wǎng)排行榜抓取系統(tǒng),其特征在于,網(wǎng)頁標題識別模塊在對網(wǎng)頁進行分類之前,對標題進行預(yù)處理,預(yù)處理具體為:用正則表達式匹配的方式,去掉標題中的次要部分,確定標題的主要部分;對主要部分進行英文詞法分析,獲得單詞序列中每一個單詞的詞性和原型,并將單詞、詞性、原型構(gòu)成特征表格。
3.根據(jù)權(quán)利要求2所述的基于排名網(wǎng)站的互聯(lián)網(wǎng)排行榜抓取系統(tǒng),其特征在于,網(wǎng)頁標題識別模塊包括分類器,分類器利用事先訓練好的模型將對輸入的特征表格進行分析,其結(jié)果為對輸入單詞序列對應(yīng)的標注序列,其中K代表列表項的個數(shù),F(xiàn)代表排行榜的領(lǐng)域,C表示排行榜的標準,對于分類結(jié)果的處理分為兩種情況:如果標注序列中包含K,則說明輸入網(wǎng)頁為一個排名網(wǎng)頁,則需要將結(jié)果整理為<個數(shù),領(lǐng)域,標準,時間,地點>的五元組的形式,并觸發(fā)候選列表抓取模塊執(zhí)行;否則判定該網(wǎng)頁非排名網(wǎng)頁,系統(tǒng)退出。
4.根據(jù)權(quán)利要求3所述的基于排名網(wǎng)站的互聯(lián)網(wǎng)排行榜抓取系統(tǒng),其特征在于,分類器的模型是基于條件隨機域訓練獲得的。
5.根據(jù)權(quán)利要求1所述的基于排名網(wǎng)站的互聯(lián)網(wǎng)排行榜抓取系統(tǒng),其特征在于,HTML標簽路徑的含義為,在樹狀數(shù)據(jù)結(jié)構(gòu)中,任意一個節(jié)點到根節(jié)點的路徑,具體表示為路徑中各個節(jié)點的HTML標簽的連接;基于HTML標簽路徑的聚類分析由通過對網(wǎng)頁中所有節(jié)點進行遍歷,將具有相同標簽路徑的節(jié)點進行聚類,形成多個類,其中,包含K個節(jié)點的類即為候選的排行榜列表,K為網(wǎng)頁標題識別模塊中得到的排行榜列表項個數(shù);如果沒有找到任何候選列表,則判定列表抓取失敗,系統(tǒng)退出。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學,未經(jīng)上海交通大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210580975.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:石墨反應(yīng)釜
- 下一篇:一種網(wǎng)頁的控制方法及瀏覽器
- 基于網(wǎng)絡(luò)電視的互聯(lián)網(wǎng)業(yè)務(wù)處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務(wù)接入網(wǎng)關(guān)的實現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應(yīng)用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動攝像終端進行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡(luò)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護用于互聯(lián)網(wǎng)資源分配的事務(wù)
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務(wù)器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品





