[發明專利]平行網頁獲取方法及裝置無效
| 申請號: | 201310174218.4 | 申請日: | 2013-05-10 |
| 公開(公告)號: | CN103258032A | 公開(公告)日: | 2013-08-21 |
| 發明(設計)人: | 劉奇;劉洋;孫茂松 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 賈玉健 |
| 地址: | 100084 北京市海淀區1*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 平行 網頁 獲取 方法 裝置 | ||
1.一種平行網頁獲取方法,其特征在于,包括:
使用HTML結構信息實現對平行網站中平行網頁的同步遞歸訪問,使用URL模式優化遍歷平行網站的路徑;
對同步訪問的候選平行網頁對,使用分類器進行判定,對判定為平行網頁的網頁對,學習其URL對應的命名模式,使用基于HTML標記序列對齊的技術抽取平行網頁對中的雙語文本和下級候選網頁鏈接對,利用學習到的URL命名模式構建候選平行網頁鏈接對優先隊列;
對是否應該終止平行網頁發現進行判定,最終完成對一個平行網站中的平行網頁的發現和雙語文本的挖掘。
2.根據權利要求1所述的平行網頁獲取方法,其特征在于,所述平行網頁,具體地,是指一對網頁結構相同或相似,內容互相翻譯的一對網頁,網頁結構相同或相似,是指網頁排版從視覺效果上看具有一致性,同時網頁的HTML源文件從樹狀HTML標記結構上看也具有相似性。
3.根據權利要求1所述的平行網頁獲取方法,其特征在于,所述使用HTML結構信息實現對平行網站中平行網頁的同步遞歸訪問,具體包括:
使用網頁HTML標記序列對齊技術,從平行網頁中獲取對齊HTML結構,從中抽取對齊的下級候選平行網頁鏈接對,將下級候選平行網頁鏈接對放入候選平行網頁鏈接對隊列,則在平行網站中實現寬度優先的平行網頁同步遞歸訪問。
4.根據權利要求3所述的平行網頁獲取方法,其特征在于,所述HTML標記序列對齊,具體包括:
對網頁HTML標記進行序列化,將一個樹狀的HTML標記結構序列化為一個HTML標記串,對一對HTML標記串,使用動態規劃算法進行對齊,將對齊的部分找出,對齊的標記所對應的文本則可能是相互翻譯的雙語文本,所對應的網頁鏈接對則可能是該網頁對指向的下級候選平行網頁對。
5.根據權利要求1所述的平行網頁獲取方法,其特征在于,所述使用URL模式優化遍歷平行網站的路徑,具體包括:
對判定為平行網頁的網頁對,學習其URL對應的命名模式,利用學習到的URL模式構建候選平行網頁鏈接對優先隊列,將符合可信賴URL模式的鏈接對排序靠前,系統優先處理,將不符合可信賴URL模式的鏈接對排序靠后,推遲處理,達到優先處理確實是平行網頁的候選效果,實現了優化遍歷平行網站路徑的目的,具體地,所述URL模式的形式化定義為:
p={pt,w},其中pt是指一對URL的命名模式,w指的是該模式在已經判定為平行網頁的網頁對中出現的頻度;
候選平行網頁鏈接對優先隊列構建方法具體包括:對URL模式已出現頻度大于某一個閾值的,認定為可信賴模式,遍歷候選平行網頁鏈接對候選隊列,符合可信賴模式的排序靠前,同樣符合可信賴模式的兩個候選鏈接對,所對應模式頻度較高的排序靠前。
6.根據權利要求5所述的平行網頁獲取方法,其特征在于,所述URL模式,具體地是指:
每一對平行網頁的URL對應著一個命名模式,規則為“en”替換“gb”,“e”替換“c”,形式化地,將URL模式定義如下:
p={pt,w}
pt={tc1→te1,…,tcn→ten}
其中tci→tei表示使用中文頁面URL中的tci替換英文頁面URL中的tei,w為該模式出現的頻度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310174218.4/1.html,轉載請聲明來源鉆瓜專利網。





