[發明專利]一種基于鏈接的雙語平行網頁識別方法及系統有效
| 申請號: | 201310737955.0 | 申請日: | 2013-12-27 |
| 公開(公告)號: | CN103646117A | 公開(公告)日: | 2014-03-19 |
| 發明(設計)人: | 洪宇;嚴為絨;姚建民 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/28 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 常亮 |
| 地址: | 215123 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 鏈接 雙語 平行 網頁 識別 方法 系統 | ||
技術領域
本發明涉及計算機技術領域,更具體的說,是涉及一種基于鏈接的雙語平行網頁識別方法及系統。
背景技術
雙語語料在機器翻譯、跨語言信息檢索等領域中具有極其重要的作用。但通過人工構建雙語語料往往費時費力。近年來,互聯網發展迅猛,提供了海量的信息,其中不乏雙語資源。一些網站為了國際化的需要,提供了兩種或兩種以上的語言版本的網頁,這些網頁使用的語言不同,但其中的內容互為翻譯,這樣的網頁被稱為雙語平行網頁。雙語平行網頁是雙語語料的重要來源。
目前,在互聯網中識別雙語平行網頁進而提取出其中的雙語資源,采用的方法主要有:錨文本法、網頁地址(Uniform?Resource?Locator,URL)匹配法、網頁結構相似度法等。其中,錨文本法主要依賴于網頁中帶有語言信息的錨文本來識別與其平行的網頁。比如,中文網頁A的頭部存在“English?Version”這一錨文本,同時該錨文本指向了英文網頁B,則可以判斷網頁A和B為雙語平行網頁。而URL匹配方法則依賴于網頁的URL相似度,比如,兩個不同語言網頁的URL分別為“http://www.aaa.com/index_ch.html”和“http://www.aaa.com/index_en.html”,可以預先構建ch與en的對應關系,然后判斷這兩個網頁是否平行。網頁結構相似度法主要計算兩個網頁的結構相似度,根據結構的相似性來判斷網頁是否互譯。
現有的錨文本法以及URL匹配法通用性都很低,并不是所有雙語網站中的平行網頁都具有其實施所需求的特點,而對于網頁結構相似度法,其識別準確性較低。
因此,提供一種通用性更強、計算結果更準確的雙語平行網頁識別方法及系統,是本領域技術人員亟待解決的問題。
發明內容
有鑒于此,本發明提供了一種基于鏈接的雙語平行網頁識別方法及系統,在提高雙語網站中平行網頁識別的通用性的同時,具有更高的準確性。
為實現上述目的,本發明提供如下技術方案:
一種基于鏈接的雙語平行網頁識別方法,該方法應用于雙語網站中,包括:
根據超鏈接構建網頁之間的連接關系,形成一個網絡,其中,所述網絡中,節點為網頁,邊為網頁之間的超鏈接;
對所述網絡中待識別的網頁進行預處理,得到預處理后的網頁;
根據網頁內部信息對任意兩個不同語言的預處理后的網頁進行內部翻譯相似度的計算,得到兩個網頁的內部翻譯相似度值;
根據網頁外部信息對內部翻譯相似度較高的兩個不同語言的網頁進行外部翻譯相似度的計算,得到兩個網頁的外部翻譯相似度值;
將所述內部翻譯相似度值與外部翻譯相似度值融合得到優化翻譯相似度值,并迭代計算所述外部翻譯相似度值和優化翻譯相似度值,直到所述外部翻譯相似度值或所述優化翻譯相似度值達到穩定;
根據最終得到的優化翻譯相似度值識別出雙語平行網頁。
優選的,所述預處理包括:
采用N-gram模型識別所述網頁的語言類別;
提取出所述網頁的HTML標簽序列,并去除描述文字效果的標簽;
根據所述網頁對應的語言類別的分詞方法對所述網頁的正文內容進行分詞。
優選的,所述網頁內部信息度包括:網頁大小、網頁內容、網頁結構。
優選的,所述內部翻譯相似度的計算包括:
計算兩個網頁大小的比例,其中,如果所述比例小于0.33或大于3,則這兩個網頁的內部翻譯相似度設為0;
統計兩個網頁內互為翻譯的詞的個數,計算互譯詞占所有詞的比例,該比值作為基于內容的翻譯相似度Scb;
計算兩個網頁對應HTML標簽序列的最長公共子序列的長度,該長度與兩個網頁的最長公共子序列長度的平均值的比值作為結構翻譯相似度Sstruct;
利用如下公式計算兩個網頁的內部翻譯相似度值:
Sint=β·Scb+(1-β)·Sstruct
其中,Sint為兩個網頁的內部翻譯相似度值,β為加權系數,且0≤β≤1。
優選的,所述外部翻譯相似度的計算包括:
根據所述網絡獲取內部翻譯相似度較高的兩個不同語言的網頁e和c各自相鄰網頁的集合neighbor(e)和neighbor(c);
判斷出所述集合neighbor(e)和neighbor(c)中最相似的兩個網頁;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310737955.0/2.html,轉載請聲明來源鉆瓜專利網。





