[發明專利]用戶勾圈網頁即時翻譯系統及方法無效
| 申請號: | 200910040304.X | 申請日: | 2009-06-17 |
| 公開(公告)號: | CN101576878A | 公開(公告)日: | 2009-11-11 |
| 發明(設計)人: | 董名垂;費曉磊 | 申請(專利權)人: | 董名垂 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30 |
| 代理公司: | 廣州市華學知識產權代理有限公司 | 代理人: | 陳燕嫻;伍宏達 |
| 地址: | 100088北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶 網頁 即時 翻譯 系統 方法 | ||
技術領域
本發明涉及一種全新的網頁在線瀏覽翻譯系統及方法,用以對網頁中被隨意勾圈的網頁段落進行截取處理并即時翻譯。該系統及方法可應用于各類有線或無線上網的電腦設備、嵌入式系統、便攜式系統、系統芯片、手機設備或移動電子裝置。本發明的核心價值在于它不受限于網頁的內部設計格式和開發語言,也不受限于網頁外部的表現風格和動畫色彩,徹底克服其他在線翻譯系統嚴重受限于網頁內部結構的致命缺點,能讓用戶將Internet上瀏覽到的源語言網頁的任何內容自如翻譯到目標語言來閱讀。
背景技術
隨著互聯網技術的發展與普及,Internet已經成為一個擁有龐大信息量的全球性信息資源體,其大大加速了全球范圍內的信息交換。只需借助一臺計算機,人們就能輕松快捷地獲得世界各地的數據和信息。然而,在享用Internet所帶來的巨大便利時,人們會遇到一個語言障礙的問題。Internet上的網頁信息由不同國家所提供,包含了世界各國不同的語言文字,由于這些信息以各種語言的形式存在于互聯網上,給用戶造成了諸多不便,當用戶沒能掌握某種語言時,也就無法讀懂該語言的網頁。因此,對網上的頁面進行翻譯就顯得非常必要,網頁翻譯技術便應運而生。
Internet在線即時翻譯是機器翻譯的一個最新應用領域,是當前信息時代交流全球化的一個解決方案,人們通過互聯網(Internet)查詢、瀏覽資料時,可以借助在線翻譯軟件,對文本進行即時翻譯,以獲得他所需要的各種信息。
現有的Internet在線翻譯主要用了如下三種方法:
一、通過翻譯網站來進行翻譯??蛻魧⑺g網頁的網址發送到提供翻譯服務的服務器,服務器翻譯完后再將結果返送回來。
二、通過客戶端進行翻譯。即:利用有翻譯功能的瀏覽器來進行翻譯。人們在自己的計算機內,安裝一個具有網頁翻譯功能的瀏
覽器軟件,就可以通過該瀏覽器來瀏覽外國語言的網頁。
三、通過E-mail進行聯機機器翻譯。它是由用戶將需要翻譯的資料用E-mail發給提供翻譯服務的翻譯公司,等翻譯公司翻譯完后,再用E-mail將結果發回給用戶。
其中,除了第三種不能在真正意義上算是即時機器翻譯,另外兩種可歸結為在線翻譯和本地翻譯兩種模式,但是他們各有缺點。在線翻譯的主要缺點是翻譯的速度較慢、資源利用不均衡,并且用戶缺乏足夠的控制力。因為采用了在線語種語料庫,所以在翻譯過程中,客戶端需要不停地向服務器發送請求,此時當用戶的網絡不穩定或者網絡通訊狀況不好時,翻譯速度將不堪忍受,或者干脆不能翻譯。
一個網頁即時翻譯系統應當具備以下幾個基本功能:
1.在線翻譯功能。系統應能對原文頁面做出實時快速的翻譯。
2.原文頁面和譯文頁面的對照顯示功能。系統應能支持原文頁面和翻譯結果頁面的對照顯示。
3.不打擾用戶對計算機的其他正常操作,例如瀏覽網頁或文字處理。當用戶需要對所瀏覽內容進行翻譯的時候,才呼叫出即時翻譯系統執行操作。
而瀏覽器翻譯系統的一個主要發展則是其運算法則的發展,其主要困難在于分析HTML的結構。一個HTML網頁主要由文本加上一些HTML格式標簽構成。如果直接將源文件根據格式標簽分成幾個部分,很可能會將完整的內容切割成不完整的幾部分,從而導致無法準確翻譯原文。事實上,在翻譯時,應當將整個頁面當作一個整體而不是分成單獨的幾個部分,否則會導致誤解。要做到這點,機器翻譯系統應當能將完整的句子或段落放到一個整體中去翻譯,即使有些句子可能會被一些HTML格式標簽分開。但是還有一點要注意,翻譯后的文本也應當要有正確的格式標簽。這就可能會遇到兩個問題:如何將HTML格式標簽正確地插入到翻譯后的文本中以及如何正確地翻譯純文本。關于HTML文件,自然不能將格式標簽與文本分開后翻譯文本待翻譯完后再插入格式標簽,因為兩種語言結構不同,不能總是找到一一對應的詞,因此應當采用別的方法來處理整個問題。依據現有的技術,首先,分別標記HTML格式標簽和文本,然后分別翻譯純文本和格式標簽文本,之后系統會比較這二者。如果目標語言版本與源語言完全吻合,象源文本那樣直接標記它就可以了。如果不一致,系統必須找出對應的部分,再加上必要的標記。
這是一個極為繁瑣而且低效率的方法,因為現在網頁開發技術日新月異,每時每刻都有新的格式標簽出現在網頁源代碼之中。不僅如此,已有的格式標簽所構成網頁的版面也會無時不刻地變化,這就要求網頁翻譯系統能不斷地更新網頁版面識別模塊。這些不僅降低了翻譯的效果還增加了系統后期維護的難度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于董名垂,未經董名垂許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910040304.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種固定柱及具有該固定柱的LED模塊
- 下一篇:用于涂布機或復合機的操作柜





