[發(fā)明專利]一種網(wǎng)頁數(shù)據(jù)提取方法在審
| 申請?zhí)枺?/td> | 201210491213.X | 申請日: | 2012-11-27 |
| 公開(公告)號: | CN103838790A | 公開(公告)日: | 2014-06-04 |
| 發(fā)明(設(shè)計(jì))人: | 夏銘澤;侯辛酉 | 申請(專利權(quán))人: | 大連靈動科技發(fā)展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 大連東方專利代理有限責(zé)任公司 21212 | 代理人: | 曲永祚 |
| 地址: | 116023 遼寧*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)頁 數(shù)據(jù) 提取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種數(shù)據(jù)采集技術(shù),特別是一種網(wǎng)頁數(shù)據(jù)提取方法;
背景技術(shù)
早在1969年,IBM公司開發(fā)了一種文檔描述性語言GML,用來解決不同系統(tǒng)中文檔格式不同的問題;GML是IBM許多文檔系統(tǒng)的基礎(chǔ),包括Script和Bookmaster;它在1986年演變成一個國際標(biāo)準(zhǔn)ISO8879,并被稱為標(biāo)準(zhǔn)通用標(biāo)記語言即SGML;SGML是很多大型組織比如飛機(jī)、汽車公司和軍隊(duì)的文檔標(biāo)準(zhǔn),是與具體的語言無關(guān)的、結(jié)構(gòu)化的、可擴(kuò)展的語言,這些特點(diǎn)使它受到很多公司歡迎,被用來創(chuàng)建、處理和發(fā)布大量的文本信息;
標(biāo)準(zhǔn)通用標(biāo)記語言即SGML是一種元語言,即用來描述標(biāo)記語言的語言;HTML文檔類型定義是HTML語法的標(biāo)準(zhǔn)定義,HTML語法是用SGML文檔類型定義而成的;HTML是在WWW上建立超文本文件的語言,它通過標(biāo)記和屬性對一段文本的語言進(jìn)行描述;標(biāo)記是區(qū)分文本各組成部分的分界符,用來把HTML文檔劃分成不同的邏輯部分,如段落、標(biāo)題和表格等;HTML標(biāo)記有兩種作用:首先是定義文檔的結(jié)構(gòu),以便于瀏覽器顯示該文檔;其次提供超文本鏈接,可以指向網(wǎng)絡(luò)中另一臺計(jì)算機(jī)上的文件或者文件中的某一位置,這既方便了用戶瀏覽,又可以引導(dǎo)搜索引擎中的網(wǎng)頁采集器收集更多的網(wǎng)頁;HTML支持在文本中嵌入圖像、聲音、動畫等不同格式的文件,還具有強(qiáng)大的排版功能,利用HTML可以制作不是很復(fù)雜且功能強(qiáng)大,支持不同數(shù)據(jù)格式的文件嵌入,這也是WWW盛行的原因之一,其主要特點(diǎn)如下:
1、簡易性——HTML版本升級采用超集方式,從而更加靈活方便;
2、可擴(kuò)展性——HTML語言的廣泛應(yīng)用帶來了加強(qiáng)功能、增加標(biāo)識符等要求,HTML采取子類元素的方式為系統(tǒng)擴(kuò)展帶來保證;
3、平臺無關(guān)性——雖然PC機(jī)大行其道,但使用MAC等其它機(jī)器的也大有人在,HTML可以使用在廣泛的平臺上,這使得WWW廣為盛行;
網(wǎng)頁數(shù)據(jù)信息是搜索引擎采集到的主要信息,它是指導(dǎo)搜索引擎進(jìn)一步采集、分類和索引的基礎(chǔ);因此網(wǎng)頁數(shù)據(jù)提取技術(shù)是決定搜索引擎搜索效率和質(zhì)量的關(guān)鍵;目前網(wǎng)頁數(shù)據(jù)提取技術(shù)主要包括網(wǎng)頁超鏈接提取技術(shù)和網(wǎng)頁純文本提取技術(shù),本發(fā)明主要介紹了一種網(wǎng)頁數(shù)據(jù)的提取方法。
發(fā)明內(nèi)容
本發(fā)明針對以上問題的提出,而研制一種為實(shí)現(xiàn)網(wǎng)頁數(shù)據(jù)的提取,首先對網(wǎng)頁的結(jié)構(gòu)以及網(wǎng)頁的控制符進(jìn)行了充分的調(diào)研分析,并對網(wǎng)頁內(nèi)容和控制符等進(jìn)行正確的處理和判斷的一種網(wǎng)頁數(shù)據(jù)的提取方法;
本發(fā)明的技術(shù)手段如下:
一種網(wǎng)頁數(shù)據(jù)提取方法,其特征在于包括以下步驟:
A、對中英文網(wǎng)頁及文字的判別處理;若超文本網(wǎng)頁編碼采用GB2312標(biāo)準(zhǔn)則為中文網(wǎng)頁,否則為英文網(wǎng)頁;對在網(wǎng)頁標(biāo)題及正文中的中文、英文或符號通過字符編碼的范圍進(jìn)行判斷;
B、提取文本;
B1、對獲取的HTML源文件進(jìn)行過濾處理并去掉其中的標(biāo)簽控制符提取文本信息;
B2、去除腳本;去除腳本的方式包括兩種,一種為對HTML進(jìn)行解析時,若遇到Script開始標(biāo)簽,則查找Script結(jié)束標(biāo)簽,查找成功后在該結(jié)束標(biāo)簽后繼續(xù)進(jìn)行解析;另一種為默認(rèn)腳本為文本并將其提取出來,然后再判斷該文本是否為腳本代碼,若是腳本則不予收集;
C、根據(jù)預(yù)先建立的特殊字符表查找出網(wǎng)頁數(shù)據(jù)中的特殊字符并對特殊字符進(jìn)行處理;
D、過濾網(wǎng)頁數(shù)據(jù)字符和存儲網(wǎng)頁文本:對一個網(wǎng)頁中的文本進(jìn)行存儲并對各分離的文本之間加上分隔符,同時將標(biāo)簽劃分為分隔標(biāo)簽和普通標(biāo)簽,當(dāng)兩個文本之間為普通標(biāo)簽時則兩個文本是連續(xù)文本;最后過濾網(wǎng)頁數(shù)據(jù)后統(tǒng)一網(wǎng)頁數(shù)據(jù)字符格式。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
1、本發(fā)明能夠準(zhǔn)確的提取出網(wǎng)頁數(shù)據(jù)的文本信息,并能去除掉一些腳本以及過濾掉一些網(wǎng)頁數(shù)據(jù)字符,保證提取文本的準(zhǔn)確性;
2、本發(fā)明能夠?qū)μ厥庾址M(jìn)行特殊的解析處理;
3、本發(fā)明能夠識別中英文網(wǎng)頁并能采取對應(yīng)的處理措施,避免對網(wǎng)頁數(shù)據(jù)進(jìn)行錯誤的處理。
附圖說明
圖1是本發(fā)明所述的HTML網(wǎng)頁純文本提取的流程圖。
具體實(shí)施方式
下面結(jié)合附圖對本發(fā)明進(jìn)行進(jìn)一步地描述:如圖1所示,在HTML網(wǎng)頁純文本提取的工作流程中,首先本發(fā)明將待處理的網(wǎng)頁文件轉(zhuǎn)換為字符流形式并統(tǒng)一大小寫,然后順序定位到一個控制符開始提取過程。
一種網(wǎng)頁數(shù)據(jù)提取方法,包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連靈動科技發(fā)展有限公司,未經(jīng)大連靈動科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210491213.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:端面驅(qū)動滾齒輪夾具
- 下一篇:圓鋸床用導(dǎo)向套
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





