[發明專利]頁面即時翻譯系統及頁面即時翻譯方法無效
| 申請號: | 201210161919.X | 申請日: | 2012-05-23 |
| 公開(公告)號: | CN102681986A | 公開(公告)日: | 2012-09-19 |
| 發明(設計)人: | 董名垂;費曉磊 | 申請(專利權)人: | 董名垂;費曉磊 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30 |
| 代理公司: | 珠海智專專利商標代理有限公司 44262 | 代理人: | 林永協 |
| 地址: | 100096 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 頁面 即時 翻譯 系統 方法 | ||
技術領域
本發明涉及圖像處理領域,尤其是一種包含有圖像處理技術的頁面即時翻譯系統以及頁面即時翻譯方法。
背景技術
隨著互聯網技術應用的普及,人們從互聯網上獲得的信息量越來越大,由于不同網頁上顯示的文字往往是多種不同的語言,這樣給網頁的瀏覽帶來極大的不便,因此需要對頁面上不同的語言進行即時翻譯,以便瀏覽者及時了解頁面所公告的信息,但現有不少對頁面即時翻譯的方法都存在不足。
現有HTML網頁主要由文本加上HTML格式標簽構成,格式標簽是嵌入在文本內的,如果翻譯時直接將源文件根據格式標簽分成幾個部分,很可能會將完整的內容切割成不完整的幾部分,從而導致無法準確翻譯原文。因此,在翻譯時需要將整個頁面當作一個整體而不是分成單獨的幾個部分。
現有的頁面即時翻譯方法是首先分別標記HTML格式標簽和文本,分別翻譯文本和格式標簽,然后翻譯系統比較翻譯前后的文本以及格式標簽,如果格式標簽在翻譯前后的文本中的位置一致,那么將對應的格式標簽設置在翻譯前的文本對應的位置,如果不一致,翻譯系統需要找出格式標簽在翻譯后的文本中對應的位置,并添加上必要的格式標簽。
并且,由于不同的HTML網頁由不同的語言編寫而成,相同的格式標簽通常有不同的表示方法,因此翻譯系統需要識別這些不同語言編寫的格式標簽,并將這些格式標簽轉換成翻譯系統能夠輸出的格式標簽表示方式。
由于現在網頁開發技術日新月異,每時每刻都有新的格式標簽出現在網頁源代碼之中。并且,已有的格式標簽所構成網頁的版面也會無時不刻地變化,這就要求網頁即時翻譯系統能不斷地更新網頁版面識別模塊,這不僅降低了翻譯的效率還增加了翻譯系統后期維護的難度。因此,隨著網頁技術的快速發展,很容易導致翻譯系統因不能識別網頁版面格式而出現翻譯出錯的情況。
公開號為CN101576878A的中國發明專利申請公開了一種名為“用戶勾圈網頁即時翻譯系統及方法”的發明創造,該翻譯系統具有勾圈截屏模塊、字符識別模塊、雙語翻譯模塊、翻譯結果顯示模塊等。勾圈截屏模塊根據使用者的操作截取圖像,并由字符識別模塊是否所截取圖像內的字符,由雙語翻譯模塊對字符進行翻譯,最后由翻譯結果顯示模塊將翻譯的結果顯示出來。該方法通過截取圖像的方法來避免對HTML網頁源代碼中的標簽格式進行識別,提高了即時翻譯的效率也降低翻譯系統后期的維護難度。
但是,如何識別所截取圖像中包含的字符是翻譯系統的難題,對字符識別的精確度往往決定了后續翻譯的準確性,因此有需要提供一種能夠對圖像中的字符有效準確識別的裝置和方法。
發明內容
本發明的主要目的是提供一種能對圖像中的字符進行精確識別的頁面即時翻譯系統。
本發明的另一目的是提供一種翻譯準確率較高的頁面即時翻譯方法。
為了實現上述的主要目的,本發明提供的頁面即時翻譯系統包括用于截取頁面中指定區域的圖像的圖像截取模塊、用于獲取圖像內的字符的字符獲取模塊、用于對所獲取的字符進行識別的字符識別模塊、用于將被識別的字符翻譯成指定的語言的翻譯模塊以及用于顯示翻譯模塊輸出的翻譯結果的顯示模塊,其中,字符獲取模塊具有圖像識別模塊,通過對從圖像的中心作出的至少一條射線上的像素灰度值進行統計,判別圖像的布局;以及字符區域確定模塊,根據圖像的頂點的像素顏色確定圖像的背景顏色,并對圖像的所有像素進行逐行掃描,標記包含有非背景顏色像素的行,對被標記的行進行逐列掃描,標記非背景顏色的像素,將被標記的像素中灰度值大于或等于背景顏色灰度值的像素識別為字符區域。
由上述方案可見,字符獲取模塊獲取圖像內的字符,通過對圖像內的行與列進行掃描,獲取非背景顏色的像素,通過這些像素的集合來獲取字符區域以及字符的形狀,再由字符識別模塊使用諸如光學字符識別技術對獲取的字符進行識別,進而完成對字符的識別。這樣,翻譯系統對字符快速且精確地識別,能夠提高翻譯系統翻譯的準確性。
一個優選的方案是,字符獲取模塊還具有圖像分割模塊,根據圖像識別模塊判別的圖像的布局將圖像分割為二個以上的第一子圖像。
由此可見,對圖像劃分為多個子圖像,并對每一子圖像內的字符進行識別,這樣有利于翻譯系統準確地對字符進行識別。
進一步的方案是,字符獲取模塊還具有圖像區域確定模塊,在判斷圖像多個頂點的像素顏色不一致情況下,以每一頂點為起始點,將未被合并的與頂點具有連續性的且與相鄰像素的灰度值的差值小于閾值的像素合并形成顏色區域,將顏色區域擴充至矩形區域形成第二子圖像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于董名垂;費曉磊,未經董名垂;費曉磊許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210161919.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:控制裝置及移動終端
- 下一篇:高空作業平臺延伸機構打開裝置





