[發明專利]平行網頁獲取方法及裝置無效
| 申請號: | 201310174218.4 | 申請日: | 2013-05-10 |
| 公開(公告)號: | CN103258032A | 公開(公告)日: | 2013-08-21 |
| 發明(設計)人: | 劉奇;劉洋;孫茂松 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 賈玉健 |
| 地址: | 100084 北京市海淀區1*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 平行 網頁 獲取 方法 裝置 | ||
技術領域
本發明涉及文本信息處理技術領域,特別涉及一種平行網頁獲取方法及裝置。
背景技術
互聯網作為一個多語言環境的國際網絡,為全世界人們相互溝通提供了巨大方便,但是語言不通仍然對人們有效獲取其他語言的信息造成了障礙。隨著國際交流的日益深入,為了方便持不同語言的各國人士獲取信息,互聯網中設立了大量的多語網站,這類網站存在多個語種的網頁,同一內容的網頁存在多個對應的其他語言的網頁。由于這類網站中很多網頁內容嚴格對譯,質量優良,所以就成為了雙語平行語料的可靠來源。平行語料指的是相互翻譯的兩種語種的句對集合,比如“I?love?you”,與“我愛你”就是一對平行句對。平行語料在統計機器翻譯和跨語言信息檢索等領域是重要的基礎性資源。國際機構LDC(Linguistic?Data?Consortium,語言數據聯盟)就提供了大量的平行語料為相關的研究人員使用。
然而現有平行語料的數量和領域仍然無法應對互聯網的使用環境。傳統的平行語料來源主要分為三種:一、雙語國家的法律文書和議會記錄;二、宗教類翻譯文本;三、文學類翻譯文本。這些雙語語料質量較高,然而數量有限且領域局限于法律、政治、宗教、文學等有限領域。在適用領域上存在非常大的局限性。在互聯網適用環境下,我們迫切需要能夠適應互聯網這種多領域環境的語料資源?;镜霓k法是對互聯網中存在的平行網站中抓取平行網頁,再從平行網頁中抽取平行文本,最后進行句子對齊得到平行語料。所謂平行網站,指的是一種多語言的網站,網站中的同一內容存在多個語言的版本,如聯合國官方網站、香港政府網站等。所謂平行網頁,是指平行網站中的同一內容的不同語種的一對網頁,其網頁結構也具有相似性。
傳統互聯網平行網頁獲取方法,分為兩種,一種是使用URL模式的方法,該類方法基本思路為人工觀察平行網站中平行網頁的URL命名模式,預定義一些模式,如英法語網頁模式:“fr”-“en”,中英語網頁模式“ch”-“en”,有了這些預定義的模式,獲取了平行網站的全站URL之后,就可以利用模式反向找到可能的平行網頁對,然而由于這種方法使用人工預定義的有限URL模式,存在發現效率低下和對平行網站中平行網頁發現不全的問題;另外一種是利用平行網頁HTML結構相似性來實現平行網站中平行網頁的遞歸同步訪問,由于平行網頁對的網頁HTML結構具有相似性,利用頁面HTML結構對齊的算法,就可以獲得相對應的雙語文本和下級候選平行網頁鏈接對,再使用分類器對候選平行網頁對進行檢驗。但這種方法由于使用分類器對頁面對齊技術獲取下級候選鏈接對進行一一檢查,存在處理了大量候選對但只存在較少真正平行的鏈接對的問題,另外該技術對一個平行網站的處理結束條件為沒有候選平行網頁對時結束,但實際上候選網頁對將持續膨脹,而其中的處理錯誤也將累積,導致不得不處理一部分就結束。
發明內容
為了克服上述現有技術的缺點,本發明的目的在于提供一種平行網頁獲取方法和裝置,結合上述兩種方法的優點,克服兩者的缺點,同時使用HTML結構信息和平行網頁URL模式進行平行網頁的發現。
為了實現上述目的,本發明采用的技術方案是:
一種平行網頁獲取方法,包括:
使用HTML結構信息實現對平行網站中平行網頁的同步遞歸訪問,使用URL模式優化遍歷平行網站的路徑;
對同步訪問的候選平行網頁對,使用分類器進行判定,對判定為平行網頁的網頁對,學習其URL對應的命名模式,使用基于HTML標記序列對齊的技術抽取平行網頁對中的雙語文本和下級候選網頁鏈接對,利用學習到的URL命名模式構建候選平行網頁鏈接對優先隊列;
對是否應該終止平行網頁發現進行判定,最終完成對一個平行網站中的平行網頁的發現和雙語文本的挖掘。
本發明所述平行網頁,具體地,是指一對網頁結構相同或相似,內容互相翻譯的一對網頁,網頁結構相同或相似,是指網頁排版從視覺效果上看具有一致性,同時網頁的HTML源文件從樹狀HTML標記結構上看也具有相似性。
所述使用HTML結構信息實現對平行網站中平行網頁的同步遞歸訪問,具體包括:
使用網頁HTML標記序列對齊技術,從平行網頁中獲取對齊HTML結構,從中抽取對齊的下級候選平行網頁鏈接對,將下級候選平行網頁鏈接對放入候選平行網頁鏈接對隊列,對一個平行網站,由于中英文首頁是一對平行網頁,且從首頁出發可以遍歷全站的網頁,因此使用中英文首頁作為種子平行網頁,利用上述處理方法,實現對平行網站中的平行網頁的同步遞歸訪問。
所述HTML標記序列對齊,具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310174218.4/2.html,轉載請聲明來源鉆瓜專利網。





