[發(fā)明專利]網(wǎng)頁編碼識別方法、裝置和終端設(shè)備無效

申請?zhí)枺?/td>	200910130459.2	申請日：	2009-04-17
公開（公告）號：	CN101526963A	公開（公告）日：	2009-09-09
發(fā)明（設(shè)計）人：	楊萌	申請（專利權(quán)）人：	深圳華為通信技術(shù)有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京三友知識產(chǎn)權(quán)代理有限公司	代理人：	陶海萍
地址：	518129廣東省深***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	網(wǎng)頁編碼識別方法裝置終端設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

技術(shù)領(lǐng)域

本發(fā)明關(guān)于網(wǎng)絡(luò)技術(shù)，特別關(guān)于通過瀏覽器訪問網(wǎng)頁時的網(wǎng)頁編碼識別方法、裝置和終端設(shè)備。

背景技術(shù)

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，用戶使用其終端上網(wǎng)非常普遍，上網(wǎng)時需要使用瀏覽器(Browser)，目前常用的瀏覽器有微軟公司的IE瀏覽器(MicrosoftInternet?Explorer)、FireFox瀏覽器等。當采用上述瀏覽器瀏覽網(wǎng)頁時，對于這類網(wǎng)頁的識別可采用如下方式：

檢索網(wǎng)頁協(xié)議數(shù)據(jù)頭<HEAD>和數(shù)據(jù)體<BODY>；判斷是否檢索到“charset”字段，其中，該“charset”字段表示編碼類型，例如其類型可為簡體中文(GB2312)、繁體中文(BIG5)和通用轉(zhuǎn)換格式，如UTF-8(8位元UniversalCharacter?Set/Unicode?Transformation?Format)等；如果沒有檢索到該“charset”字段，則確定采用缺省語言所對應(yīng)的編碼類型來進行編解碼。

一般情況下，設(shè)置缺省編碼時不考慮使用UTF-8編碼的情況。以IE為例：簡體中文采用zh-cn表示，使用編碼GB2312；繁體中文采用zh-hk/zh-tw/zh-mo/zh-sg表示，使用編碼BIG5；英語采用en表示，使用編碼Latin-1(ISO-8859-1)。

目前，存在于互聯(lián)網(wǎng)上的網(wǎng)站、網(wǎng)頁制作手段越來越簡單，可以使用多種工具實現(xiàn)傻瓜式操作，并不需要具備很多專業(yè)知識；另外網(wǎng)站申請、發(fā)布的渠道也更多，管理也越來越寬松，這樣造成很多目前可公開訪問的網(wǎng)頁的編寫語法上存在明顯的問題，如很多使用了中文編寫的網(wǎng)頁都沒有寫入該“charset”字段。

發(fā)明人在實現(xiàn)本發(fā)明的過程中發(fā)現(xiàn)現(xiàn)有技術(shù)中的缺陷在于，若在使用了中文編寫的網(wǎng)頁中沒有寫入該“charset”字段時，對于實際使用的編碼類型與缺省編碼類型不符的情況，網(wǎng)頁內(nèi)容不能被正確編解碼，例如，當網(wǎng)頁使用繁體中文編寫但是沒有寫“charset”值，這樣，當缺省編碼類型為簡體中文時，在使用該缺省為簡體中文的瀏覽器訪問，網(wǎng)頁顯示時就會出現(xiàn)亂碼。

發(fā)明內(nèi)容

本發(fā)明實施例的目的在于提供一種網(wǎng)頁編碼識別方法、裝置和終端設(shè)備，能夠在未設(shè)置編碼類型的情況下，根據(jù)預(yù)設(shè)編碼類型正確識別網(wǎng)頁的編碼類型，特別是識別中文網(wǎng)頁的編碼方式，從而大幅度提高網(wǎng)頁中字符正確顯示的幾率，有效地避免亂碼的產(chǎn)生，且可應(yīng)用于各種瀏覽器。

為實現(xiàn)上述目的，本發(fā)明實施例提供一種網(wǎng)頁編碼識別方法，該方法包括：獲取網(wǎng)頁的數(shù)據(jù)頭和數(shù)據(jù)體；若該數(shù)據(jù)頭和數(shù)據(jù)體中不存在標識網(wǎng)頁的編碼類型的信息，則根據(jù)預(yù)設(shè)編碼類型對該數(shù)據(jù)頭和數(shù)據(jù)體進行分析，確定該網(wǎng)頁的編碼類型。

為實現(xiàn)上述目的，本發(fā)明實施例提供一種網(wǎng)頁編碼識別裝置，該裝置包括：數(shù)據(jù)獲取單元，用于獲取網(wǎng)頁的數(shù)據(jù)頭和數(shù)據(jù)體；

類型確定單元，與該數(shù)據(jù)獲取單元連接，用于在該數(shù)據(jù)頭和數(shù)據(jù)體中不存在標識網(wǎng)頁的編碼類型的信息時，根據(jù)預(yù)設(shè)編碼類型對所述數(shù)據(jù)頭和數(shù)據(jù)體進行分析，確定該網(wǎng)頁的編碼類型。

為實現(xiàn)上述目的，本發(fā)明實施例提供一種識別網(wǎng)頁編碼的終端設(shè)備，該終端設(shè)備包括上述的網(wǎng)頁編碼識別裝置。

本發(fā)明實施例的有益效果在于，通過預(yù)設(shè)編碼類型對在網(wǎng)頁中未設(shè)置編碼類型的網(wǎng)頁進行分析，根據(jù)預(yù)設(shè)編碼類型確定該網(wǎng)頁所使用的編碼類型，特別是識別中文網(wǎng)頁的編碼類型，從而大幅度提高網(wǎng)頁中字符正確顯示的幾率，有效地避免亂碼的產(chǎn)生，且可應(yīng)用于各種瀏覽器。

附圖說明

此處所說明的附圖用來提供對本發(fā)明實施例的進一步理解，構(gòu)成本申請的一部分，并不構(gòu)成對本發(fā)明實施例的限定。在附圖中：

圖1是本發(fā)明實施例1的網(wǎng)頁編碼識別方法流程圖；

圖2是本發(fā)明實施例2的網(wǎng)頁編碼識別方法流程圖；

圖3是本發(fā)明實施例2中步驟205的流程圖之一；

圖4是本發(fā)明實施例2中步驟205的流程圖之二；

圖5是本發(fā)明實施例2中步驟205的流程圖之三；

圖6是本發(fā)明實施例3的網(wǎng)頁編碼識別裝置的構(gòu)成示意圖；

圖7是本發(fā)明實施例4的網(wǎng)頁編碼識別裝置的構(gòu)成示意圖。

具體實施方式

為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚明白，下面結(jié)合附圖，對本發(fā)明實施例作進一步詳細說明。在此，本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明，但并不作為對本發(fā)明的限定。

本發(fā)明實施例提供一種網(wǎng)頁編碼識別方法及其裝置。以下結(jié)合附圖對本發(fā)明實施例進行詳細說明。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳華為通信技術(shù)有限公司，未經(jīng)深圳華為通信技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200910130459.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。