[發明專利]用于嵌入式瀏覽器的網頁編碼語言自動識別方法及裝置有效
| 申請號: | 200710143874.2 | 申請日: | 2007-08-03 |
| 公開(公告)號: | CN101101606A | 公開(公告)日: | 2008-01-09 |
| 發明(設計)人: | 謝曼 | 申請(專利權)人: | 中興通訊股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L29/06 |
| 代理公司: | 北京康信知識產權代理有限責任公司 | 代理人: | 尚志峰;吳孟秋 |
| 地址: | 518057廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 嵌入式 瀏覽器 網頁 編碼 語言 自動識別 方法 裝置 | ||
技術領域
本發明涉及通訊領域,尤其涉及一種用于嵌入式瀏覽器的網頁編碼語言自動識別方法及裝置。
背景技術
嵌入式瀏覽器從桌面個人計算機(PC)所用的瀏覽器而來,多用于機頂盒、信息家電、和移動信息終端等嵌入設備。
與個人計算機上的瀏覽器不同,嵌入式瀏覽器能夠獲得的資源,比如顯示面積大小、處理器計算能力、內存大小、緩存大小、字庫、及語言文件都非常有限,而需要處理的內容幾乎與個人計算機上相同,因此在網絡連接方式、內容解析、排面布局上都和個人計算機瀏覽器有很大的區別。尤其是在移動信息終端上,嵌入式瀏覽器除了支持傳統的互聯網,還必須支持訪問移動互聯網,即工作分配計劃(WAP)網站。瀏覽器必須既能解析超文本標示語言(HTML)、文件擴展名(SHTML)、及動態超文本標示語言(DHTML)等超文本語言網頁,又能解析無線標示語言(WML)、無線二進制可擴展標示語言(WBXML)、及壓縮超文本標示語言(CHTML)等工作分配計劃網頁。而訪問以上諸多格式的網頁,都可能遇到支持多種語言的問題。
超文本傳輸通訊協議(HTTP)及工作分配計劃兩種互聯網協議,還有超文本標示語言/無線標示語言都對怎樣使用多種語言進行了規定。但是實際應用中,網頁書寫不規范,通過網關訪問出現協議頭丟失或者頁面轉換導致用于指明頁面編碼的元數據錯誤等,都可能使信息終端上的瀏覽器無法獲得充分正確的依據判斷出網頁到底使用哪種語言。更有甚者,網頁里使用多種編碼,根本無法用同一編碼對全部網頁文本進行解析。
對此類問題,一般有兩種解決方案:手工糾錯或者自動解碼。前者是由用戶指定一種編碼,瀏覽器按此編碼重新對網頁數據進行解析。這種方法成功概率取決于用戶判斷的準確度。但是它需要用戶的參與,不夠便利,此外也需要重新解析網頁,很浪費資源。后一種方案自動解碼的實現則千差萬別,由于嵌入系統資源系統有限,最常見的方法是內置一種缺省語言,一旦無法識別,就用該語言去解碼,這種方法往往造成顯示亂碼。
發明內容
鑒于以上所述的一個或多個問題,本發明提出了一種用于嵌入式瀏覽器的網頁編碼語言自動識別方法及裝置。根據本發明所述的方法及裝置不需要用戶參與指定編碼,并且可以消除使用內置缺省編碼造成的顯示亂碼的可能性,其是對網頁內部存在多種編碼的情況有很好的效果。
根據本發明的一種用于嵌入式瀏覽器的網頁編碼語言自動識別方法包括以下步驟:S102,從嵌入式瀏覽器的協議棧中獲取部分網頁數據和協議頭;S104,解析網頁數據和協議頭,以獲得指明網頁編碼的元數據;S106,利用從網頁數據中獲取的元數據和從協議頭中獲取的元數據,根據優先級判斷第一次文本解析應該使用的編碼;以及S108,根據所采用的編碼解析當前數據塊,并統計解析過程中出現的錯誤,并且在出現錯誤的情況下,再次選擇編碼進行解析。
其中,S106包括:S106-2,將從網頁數據獲取的元數據或協議頭中獲取的元數據的優先級設置為最高,在其中至少之一存在的情況下,采用該種元數據指示的編碼進行解析;S106-4,在均不存在的情況下,采用從同一網頁的其他數據塊的網頁數據或協議頭獲取的元數據指示的編碼進行解析;以及S106-6,在不存在同一網頁的其他數據塊的網頁數據和協議頭的情況下,采用瀏覽器內置的缺省編碼進行解析。
在S108中,在解析無錯誤的情況下,將采用的編碼的優先級設置為最高,在解析出現錯誤的情況下,繼續選擇編碼進行解析。
根據本發明的一種用于嵌入式瀏覽器的網頁編碼語言自動識別裝置包括:數據獲取模塊202,用于從嵌入式瀏覽器的協議棧中獲取部分網頁數據和協議頭;數據解析模塊204,用于解析網頁數據和協議頭,以獲得指明網頁編碼的元數據;編碼確定模塊206,用于利用從網頁數據中獲取的元數據和從協議頭中獲取的元數據,根據優先級判斷第一次文本解析應該使用的編碼;以及解析模塊208,根據所采用的編碼解析當前數據塊,并統計解析過程中出現的錯誤,并且在出現錯誤的情況下,再次選擇編碼進行解析。
其中,編碼確定模塊206將從網頁數據獲取的元數據或協議頭中獲取的元數據的優先級設置為最高,在其中至少之一存在的情況下,采用該種元數據指示的編碼進行解析;在均不存在的情況下,采用從同一網頁的其他數據塊的網頁數據或協議頭獲取的元數據指示的編碼進行解析;以及在不存在同一網頁的其他數據塊的網頁數據和協議頭的情況下,采用瀏覽器內置的缺省編碼進行解析。
其中,在解析無錯誤的情況下,編碼確定模塊206將采用的編碼的優先級設置為最高,在解析出現錯誤的情況下,編碼確定模塊繼續選擇編碼以進行解析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中興通訊股份有限公司,未經中興通訊股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710143874.2/2.html,轉載請聲明來源鉆瓜專利網。





