[發(fā)明專利]多編碼格式數(shù)據(jù)顯示系統(tǒng)及方法在審
| 申請?zhí)枺?/td> | 201510848005.4 | 申請日: | 2015-11-27 |
| 公開(公告)號: | CN105468753A | 公開(公告)日: | 2016-04-06 |
| 發(fā)明(設(shè)計)人: | 張?zhí)煜?/a> | 申請(專利權(quán))人: | 北京金和網(wǎng)絡(luò)股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/22 |
| 代理公司: | 北京得信知識產(chǎn)權(quán)代理有限公司 11511 | 代理人: | 袁偉東;孟海娟 |
| 地址: | 100085 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 編碼 格式 數(shù)據(jù) 顯示 系統(tǒng) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種多編碼格式數(shù)據(jù)的顯示系統(tǒng)及方法,具體涉及一種針對網(wǎng)絡(luò)爬蟲從網(wǎng)絡(luò)上抓取的數(shù)據(jù)源的顯示系統(tǒng)及方法。
背景技術(shù)
隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎(SearchEngine),例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,網(wǎng)絡(luò)爬蟲是用于尋找、瀏覽和下載在網(wǎng)絡(luò)中的網(wǎng)站上可用的資源的程序,以便構(gòu)成語料庫,即能夠被其他程序所使用的一組資源,是搜索引擎的重要組成。它們也被稱作螞蟻、機器人、網(wǎng)絡(luò)蜘蛛……。接下來,將它們稱作“網(wǎng)絡(luò)爬蟲”,或者更簡稱為“爬蟲”。
由于網(wǎng)絡(luò)爬蟲從網(wǎng)絡(luò)上抓取的數(shù)據(jù)源的編碼格式多種多樣,常見的有GB2312、UTF-8、iso8859-1,以及日文的jp系統(tǒng)編碼、西歐、俄文等編碼各不相同,有的爬蟲是對網(wǎng)頁進行簡單的編碼識別再進行統(tǒng)一編碼,有的是不做源網(wǎng)頁的判斷直接統(tǒng)一按utf-8來處理,造成了前端顯示的亂碼情況。因此,需要尋找一種多編碼格式數(shù)據(jù)的存儲和顯示方法,來解決上述問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種針對網(wǎng)絡(luò)爬蟲從網(wǎng)絡(luò)上抓取的數(shù)據(jù)源的顯示系統(tǒng)及方法,解決在多種編碼格式數(shù)據(jù)源的存儲和顯示中出現(xiàn)亂碼的問題。
根據(jù)本發(fā)明的一方面,提供一種多編碼格式數(shù)據(jù)的顯示系統(tǒng),包括:獲取單元,從數(shù)據(jù)源獲取數(shù)據(jù),解析單元,確定所述數(shù)據(jù)的編碼格式類型,第一比較單元,判斷所述數(shù)據(jù)的編碼格式與存儲單元的預(yù)設(shè)編碼格式是否一致,第一轉(zhuǎn)換單元,將所述數(shù)據(jù)的編碼格式轉(zhuǎn)換為存儲單元的預(yù)設(shè)編碼格式,存儲單元,存儲所述預(yù)設(shè)編碼格式的數(shù)據(jù);以及,顯示單元,顯示從所述存儲單元中獲取的數(shù)據(jù)。
優(yōu)選地,還包括:第二比較單元,對所述顯示單元的預(yù)設(shè)編碼格式與所述存儲單元中所存儲的數(shù)據(jù)的編碼格式進行比較;以及,第二轉(zhuǎn)換單元,將所述數(shù)據(jù)轉(zhuǎn)換為顯示單元的預(yù)設(shè)編碼格式。
優(yōu)選地,獲取單元為爬蟲引擎。
優(yōu)選地,數(shù)據(jù)的編碼格式為GBK或UTF-8。
優(yōu)選地,預(yù)設(shè)編碼格式為GB2312或UTF-8。
根據(jù)本發(fā)明的另一方面,提供一種多編碼格式數(shù)據(jù)的顯示方法,包括:獲取步驟,由獲取單元從數(shù)據(jù)源獲取數(shù)據(jù),編碼格式解析步驟,由解析單元對所述數(shù)據(jù)的編碼格式進行解析,確定編碼格式類型,存儲步驟,由第一比較單元將所述數(shù)據(jù)的編碼格式與預(yù)設(shè)編碼格式進行比較,編碼格式為預(yù)設(shè)編碼格式時,則將所述數(shù)據(jù)直接存儲至存儲單元,當所述數(shù)據(jù)的編碼格式不是預(yù)設(shè)編碼格式時,則所述第一轉(zhuǎn)換單元將所述數(shù)據(jù)的編碼格式轉(zhuǎn)換為存儲單元的預(yù)設(shè)編碼格式,進行存儲,以及,顯示步驟,由顯示單元從存儲單元中獲取數(shù)據(jù)并進行顯示。
優(yōu)選地,在顯示步驟中,第二比較單元將所述從存儲單元中獲取的數(shù)據(jù)的編碼格式與顯示單元的預(yù)設(shè)編碼格式進行比較,當所述數(shù)據(jù)編碼格式為顯示單元的預(yù)設(shè)編碼格式時,則將所述數(shù)據(jù)直接在顯示單元中顯示,當所述數(shù)據(jù)的編碼格式不是顯示單元的預(yù)設(shè)編碼格式時,則第二轉(zhuǎn)換單元將所述數(shù)據(jù)的編碼格式轉(zhuǎn)換為顯示單元的預(yù)設(shè)編碼格式,在顯示單元中進行顯示。
優(yōu)選地,在獲取步驟中網(wǎng)絡(luò)爬蟲引擎從網(wǎng)絡(luò)上爬取網(wǎng)頁。
優(yōu)選地,預(yù)設(shè)編碼格式為GB2312或UTF-8。
其中,在編碼格式解析步驟為對網(wǎng)頁中超文本傳輸協(xié)議標頭的內(nèi)容、網(wǎng)頁的元字符集、網(wǎng)頁頭中文件定義這三個位置中的任意一個進行判斷,確定網(wǎng)頁編碼類型。
根據(jù)本發(fā)明所提供的多編碼格式數(shù)據(jù)的顯示系統(tǒng)及方法,即使從網(wǎng)絡(luò)上抓取的數(shù)據(jù)源的編碼格式多種多樣,經(jīng)過編碼轉(zhuǎn)換等處理,能夠有效避免數(shù)據(jù)存儲、顯示時存在亂碼的問題。
附圖說明
圖1是多編碼格式數(shù)據(jù)顯示系統(tǒng)實施例一的功能框圖。
圖2是多編碼格式數(shù)據(jù)顯示系統(tǒng)實施例二的功能框圖。
圖3是多編碼格式數(shù)據(jù)顯示方法的總流程圖。
圖4是多編碼格式數(shù)據(jù)顯示方法中存儲步驟的流程圖。
圖5是多編碼格式數(shù)據(jù)顯示方法的實施例二中的顯示步驟的流程圖。
具體實施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京金和網(wǎng)絡(luò)股份有限公司,未經(jīng)北京金和網(wǎng)絡(luò)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510848005.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





