[發(fā)明專利]網(wǎng)頁編碼識別方法、裝置和終端設(shè)備無效
| 申請?zhí)枺?/td> | 200910130459.2 | 申請日: | 2009-04-17 |
| 公開(公告)號: | CN101526963A | 公開(公告)日: | 2009-09-09 |
| 發(fā)明(設(shè)計)人: | 楊萌 | 申請(專利權(quán))人: | 深圳華為通信技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京三友知識產(chǎn)權(quán)代理有限公司 | 代理人: | 陶海萍 |
| 地址: | 518129廣東省深*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁 編碼 識別 方法 裝置 終端設(shè)備 | ||
技術(shù)領(lǐng)域
本發(fā)明關(guān)于網(wǎng)絡(luò)技術(shù),特別關(guān)于通過瀏覽器訪問網(wǎng)頁時的網(wǎng)頁編碼識別方法、裝置和終端設(shè)備。
背景技術(shù)
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,用戶使用其終端上網(wǎng)非常普遍,上網(wǎng)時需要使用瀏覽器(Browser),目前常用的瀏覽器有微軟公司的IE瀏覽器(MicrosoftInternet?Explorer)、FireFox瀏覽器等。當采用上述瀏覽器瀏覽網(wǎng)頁時,對于這類網(wǎng)頁的識別可采用如下方式:
檢索網(wǎng)頁協(xié)議數(shù)據(jù)頭<HEAD>和數(shù)據(jù)體<BODY>;判斷是否檢索到“charset”字段,其中,該“charset”字段表示編碼類型,例如其類型可為簡體中文(GB2312)、繁體中文(BIG5)和通用轉(zhuǎn)換格式,如UTF-8(8位元UniversalCharacter?Set/Unicode?Transformation?Format)等;如果沒有檢索到該“charset”字段,則確定采用缺省語言所對應(yīng)的編碼類型來進行編解碼。
一般情況下,設(shè)置缺省編碼時不考慮使用UTF-8編碼的情況。以IE為例:簡體中文采用zh-cn表示,使用編碼GB2312;繁體中文采用zh-hk/zh-tw/zh-mo/zh-sg表示,使用編碼BIG5;英語采用en表示,使用編碼Latin-1(ISO-8859-1)。
目前,存在于互聯(lián)網(wǎng)上的網(wǎng)站、網(wǎng)頁制作手段越來越簡單,可以使用多種工具實現(xiàn)傻瓜式操作,并不需要具備很多專業(yè)知識;另外網(wǎng)站申請、發(fā)布的渠道也更多,管理也越來越寬松,這樣造成很多目前可公開訪問的網(wǎng)頁的編寫語法上存在明顯的問題,如很多使用了中文編寫的網(wǎng)頁都沒有寫入該“charset”字段。
發(fā)明人在實現(xiàn)本發(fā)明的過程中發(fā)現(xiàn)現(xiàn)有技術(shù)中的缺陷在于,若在使用了中文編寫的網(wǎng)頁中沒有寫入該“charset”字段時,對于實際使用的編碼類型與缺省編碼類型不符的情況,網(wǎng)頁內(nèi)容不能被正確編解碼,例如,當網(wǎng)頁使用繁體中文編寫但是沒有寫“charset”值,這樣,當缺省編碼類型為簡體中文時,在使用該缺省為簡體中文的瀏覽器訪問,網(wǎng)頁顯示時就會出現(xiàn)亂碼。
發(fā)明內(nèi)容
本發(fā)明實施例的目的在于提供一種網(wǎng)頁編碼識別方法、裝置和終端設(shè)備,能夠在未設(shè)置編碼類型的情況下,根據(jù)預(yù)設(shè)編碼類型正確識別網(wǎng)頁的編碼類型,特別是識別中文網(wǎng)頁的編碼方式,從而大幅度提高網(wǎng)頁中字符正確顯示的幾率,有效地避免亂碼的產(chǎn)生,且可應(yīng)用于各種瀏覽器。
為實現(xiàn)上述目的,本發(fā)明實施例提供一種網(wǎng)頁編碼識別方法,該方法包括:獲取網(wǎng)頁的數(shù)據(jù)頭和數(shù)據(jù)體;若該數(shù)據(jù)頭和數(shù)據(jù)體中不存在標識網(wǎng)頁的編碼類型的信息,則根據(jù)預(yù)設(shè)編碼類型對該數(shù)據(jù)頭和數(shù)據(jù)體進行分析,確定該網(wǎng)頁的編碼類型。
為實現(xiàn)上述目的,本發(fā)明實施例提供一種網(wǎng)頁編碼識別裝置,該裝置包括:數(shù)據(jù)獲取單元,用于獲取網(wǎng)頁的數(shù)據(jù)頭和數(shù)據(jù)體;
類型確定單元,與該數(shù)據(jù)獲取單元連接,用于在該數(shù)據(jù)頭和數(shù)據(jù)體中不存在標識網(wǎng)頁的編碼類型的信息時,根據(jù)預(yù)設(shè)編碼類型對所述數(shù)據(jù)頭和數(shù)據(jù)體進行分析,確定該網(wǎng)頁的編碼類型。
為實現(xiàn)上述目的,本發(fā)明實施例提供一種識別網(wǎng)頁編碼的終端設(shè)備,該終端設(shè)備包括上述的網(wǎng)頁編碼識別裝置。
本發(fā)明實施例的有益效果在于,通過預(yù)設(shè)編碼類型對在網(wǎng)頁中未設(shè)置編碼類型的網(wǎng)頁進行分析,根據(jù)預(yù)設(shè)編碼類型確定該網(wǎng)頁所使用的編碼類型,特別是識別中文網(wǎng)頁的編碼類型,從而大幅度提高網(wǎng)頁中字符正確顯示的幾率,有效地避免亂碼的產(chǎn)生,且可應(yīng)用于各種瀏覽器。
附圖說明
此處所說明的附圖用來提供對本發(fā)明實施例的進一步理解,構(gòu)成本申請的一部分,并不構(gòu)成對本發(fā)明實施例的限定。在附圖中:
圖1是本發(fā)明實施例1的網(wǎng)頁編碼識別方法流程圖;
圖2是本發(fā)明實施例2的網(wǎng)頁編碼識別方法流程圖;
圖3是本發(fā)明實施例2中步驟205的流程圖之一;
圖4是本發(fā)明實施例2中步驟205的流程圖之二;
圖5是本發(fā)明實施例2中步驟205的流程圖之三;
圖6是本發(fā)明實施例3的網(wǎng)頁編碼識別裝置的構(gòu)成示意圖;
圖7是本發(fā)明實施例4的網(wǎng)頁編碼識別裝置的構(gòu)成示意圖。
具體實施方式
為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚明白,下面結(jié)合附圖,對本發(fā)明實施例作進一步詳細說明。在此,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,但并不作為對本發(fā)明的限定。
本發(fā)明實施例提供一種網(wǎng)頁編碼識別方法及其裝置。以下結(jié)合附圖對本發(fā)明實施例進行詳細說明。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳華為通信技術(shù)有限公司,未經(jīng)深圳華為通信技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910130459.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





