[發(fā)明專(zhuān)利]一種藏文網(wǎng)頁(yè)的爬蟲(chóng)設(shè)計(jì)和網(wǎng)頁(yè)凈化方法和系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202011433751.4 | 申請(qǐng)日: | 2020-12-10 |
| 公開(kāi)(公告)號(hào): | CN112328945A | 公開(kāi)(公告)日: | 2021-02-05 |
| 發(fā)明(設(shè)計(jì))人: | 更太加;魏建國(guó) | 申請(qǐng)(專(zhuān)利權(quán))人: | 青海民族大學(xué) |
| 主分類(lèi)號(hào): | G06F16/958 | 分類(lèi)號(hào): | G06F16/958;G06F16/957;G06F16/955;G06F16/951 |
| 代理公司: | 北京華智則銘知識(shí)產(chǎn)權(quán)代理有限公司 11573 | 代理人: | 李樹(shù)祥 |
| 地址: | 810007*** | 國(guó)省代碼: | 青海;63 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 藏文 網(wǎng)頁(yè) 爬蟲(chóng) 設(shè)計(jì) 凈化 方法 系統(tǒng) | ||
本發(fā)明提供一種藏文網(wǎng)頁(yè)的爬蟲(chóng)設(shè)計(jì)和網(wǎng)頁(yè)凈化方法和系統(tǒng),通過(guò)藏文網(wǎng)頁(yè)的URL和文字編碼來(lái)爬取,抽取網(wǎng)頁(yè)正文,網(wǎng)頁(yè)正文是相對(duì)網(wǎng)頁(yè)噪聲而言,現(xiàn)有網(wǎng)頁(yè)頁(yè)面的很多篇幅用在廣告、搜索推薦和其他鏈接上,網(wǎng)頁(yè)搜索工具關(guān)注的是網(wǎng)頁(yè)本身要表達(dá)的信息,所以在通過(guò)爬蟲(chóng)獲取到頁(yè)面源碼之后,去除那些與本文無(wú)關(guān)的噪聲,抽取到網(wǎng)頁(yè)正文,經(jīng)過(guò)實(shí)際測(cè)試,此藏文網(wǎng)頁(yè)凈化程序?qū)τ诓匚木W(wǎng)頁(yè)文本的噪聲去除率為90%,達(dá)到預(yù)期效果。
技術(shù)領(lǐng)域
本申請(qǐng)涉及網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,尤其涉及一種藏文網(wǎng)頁(yè)的爬蟲(chóng)設(shè)計(jì)和網(wǎng)頁(yè)凈化方法和系統(tǒng)。
背景技術(shù)
隨著信息化的發(fā)展,藏文網(wǎng)頁(yè)進(jìn)行編碼識(shí)別,抓取網(wǎng)頁(yè),網(wǎng)頁(yè)凈化等都極為重要。現(xiàn)有的爬蟲(chóng)設(shè)計(jì)爬取的基本是英文、漢語(yǔ)等語(yǔ)料豐富語(yǔ)言,而藏語(yǔ)作為少數(shù)民族語(yǔ)言,網(wǎng)上資料有限,而且利于公開(kāi)爬蟲(chóng)工具會(huì)爬取到所有網(wǎng)頁(yè),無(wú)法按需求爬取,且會(huì)浪費(fèi)資源和時(shí)間。
藏文網(wǎng)頁(yè)的主流編碼是utf-8,但還有部分在應(yīng)用班智達(dá)、同元、北大方正、書(shū)林等編碼的藏文網(wǎng)頁(yè)。它們的編碼方式不一樣,所以在實(shí)際應(yīng)用時(shí)也有一定的差別。
對(duì)于藏文Web文本的摘要,主要需要的是藏文網(wǎng)頁(yè)文本的正文信息,而其他的諸如超鏈接、版權(quán)信息、日期時(shí)間標(biāo)注和網(wǎng)頁(yè)結(jié)構(gòu)代碼等信息的存在,將影響提取藏文網(wǎng)頁(yè)摘要的速度和質(zhì)量。在做藏文網(wǎng)頁(yè)摘要提取前要把這些信息過(guò)濾,從而得到凈化后的藏文網(wǎng)頁(yè)文本信息。
因此,急需一種針對(duì)性的藏文網(wǎng)頁(yè)的爬蟲(chóng)設(shè)計(jì)和網(wǎng)頁(yè)凈化的方法及系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種藏文網(wǎng)頁(yè)的爬蟲(chóng)設(shè)計(jì)和網(wǎng)頁(yè)凈化方法和系統(tǒng),通過(guò)藏文網(wǎng)頁(yè)的URL和文字編碼來(lái)爬取,抽取網(wǎng)頁(yè)正文,網(wǎng)頁(yè)正文是相對(duì)網(wǎng)頁(yè)噪聲而言,現(xiàn)有網(wǎng)頁(yè)頁(yè)面的很多篇幅用在廣告、搜索推薦和其他鏈接上,網(wǎng)頁(yè)搜索工具關(guān)注的是網(wǎng)頁(yè)本身要表達(dá)的信息,所以在通過(guò)爬蟲(chóng)獲取到頁(yè)面源碼之后,去除那些與本文無(wú)關(guān)的噪聲,抽取到網(wǎng)頁(yè)正文。
第一方面,本申請(qǐng)?zhí)峁┮环N藏文網(wǎng)頁(yè)的爬蟲(chóng)設(shè)計(jì)和網(wǎng)頁(yè)凈化方法,所述方法包括:
將要抓取的藏文網(wǎng)頁(yè)的鏈接地址URL輸入到處理框入口;
判斷該藏文網(wǎng)頁(yè)的編碼是否為國(guó)家標(biāo)準(zhǔn)編碼;
如果該藏文網(wǎng)頁(yè)的編碼不是國(guó)家標(biāo)準(zhǔn)編碼,則退出程序,否則自動(dòng)下載該藏文網(wǎng)頁(yè);
提取程序根據(jù)i=instr(已下載的藏文網(wǎng)頁(yè),“href=”),j=instr(i,””),提取出第一個(gè)超鏈接,所述i和j為存儲(chǔ)變量,instr為查找字符函數(shù);
判斷下載的藏文網(wǎng)頁(yè)長(zhǎng)度,如小于1,則抓取下一個(gè)藏文網(wǎng)頁(yè);如大于0,則判斷該超鏈接是否為絕對(duì)路徑,如果不是絕對(duì)路徑將該超鏈接修改為絕對(duì)路徑,并判斷該超鏈接是否在數(shù)據(jù)庫(kù)中;
如所述超鏈接不在數(shù)據(jù)庫(kù)中,將該超鏈接插入到數(shù)據(jù)庫(kù),i自動(dòng)累加,并重復(fù)執(zhí)行所述判斷下載的藏文網(wǎng)頁(yè)長(zhǎng)度的步驟;
如該超鏈在數(shù)據(jù)庫(kù)中,i自動(dòng)累加,并重復(fù)執(zhí)行所述判斷下載的藏文網(wǎng)頁(yè)長(zhǎng)度的步驟;
當(dāng)爬取步驟執(zhí)行完畢后,從存儲(chǔ)空間導(dǎo)出先前用藏文網(wǎng)頁(yè)爬蟲(chóng)爬取的網(wǎng)頁(yè),定義一個(gè)文件流MyFile和一個(gè)讀取文件的流fs;
用文件流MyFile來(lái)讀取文件,并打開(kāi)讀取文件的流fs;
以sr讀取fs文件流,判斷此網(wǎng)頁(yè)是否為藏文網(wǎng)頁(yè),所述sr為存儲(chǔ)變量,如不是,則將退出程序;如是,則從開(kāi)始讀到最后,將其放到變量xinxi中;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于青海民族大學(xué),未經(jīng)青海民族大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011433751.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種搜索網(wǎng)頁(yè)的方法和裝置
- 網(wǎng)頁(yè)類(lèi)型識(shí)別方法以及網(wǎng)頁(yè)類(lèi)型識(shí)別裝置
- 網(wǎng)頁(yè)生成方法及網(wǎng)頁(yè)生成裝置
- 網(wǎng)頁(yè)修改方法及網(wǎng)頁(yè)修改裝置
- 網(wǎng)頁(yè)訪(fǎng)問(wèn)處理方法
- 獲取網(wǎng)頁(yè)信息方法和裝置
- 網(wǎng)頁(yè)資源的獲取方法、裝置及終端
- 一種網(wǎng)頁(yè)制作方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及服務(wù)器
- 網(wǎng)頁(yè)安全處理方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種網(wǎng)頁(yè)同步的方法、系統(tǒng)
- 檢測(cè)反爬蟲(chóng)策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲(chóng)的方法、裝置和系統(tǒng)
- 一種通過(guò)爬蟲(chóng)狀態(tài)機(jī)管理爬蟲(chóng)的方法及裝置
- 爬蟲(chóng)協(xié)議管理方法及裝置、爬蟲(chóng)系統(tǒng)
- 基于APP客戶(hù)端的爬蟲(chóng)及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲(chóng)方法、裝置、系統(tǒng)、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 分布式爬蟲(chóng)系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計(jì)算機(jī)設(shè)備
- 基于scrapy爬蟲(chóng)框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)
- 針織設(shè)計(jì)裝置和設(shè)計(jì)方法、設(shè)計(jì)程序
- 燈具(設(shè)計(jì)1?設(shè)計(jì)3)
- 頭燈(設(shè)計(jì)1?設(shè)計(jì)2?設(shè)計(jì)3)
- LED透鏡(設(shè)計(jì)1、設(shè)計(jì)2、設(shè)計(jì)3)
- 設(shè)計(jì)用圖形設(shè)計(jì)桌
- 手機(jī)殼(設(shè)計(jì)1設(shè)計(jì)2設(shè)計(jì)3設(shè)計(jì)4)
- 機(jī)床鉆夾頭(設(shè)計(jì)1設(shè)計(jì)2設(shè)計(jì)3設(shè)計(jì)4)
- 吹風(fēng)機(jī)支架(設(shè)計(jì)1設(shè)計(jì)2設(shè)計(jì)3設(shè)計(jì)4)
- 設(shè)計(jì)桌(平面設(shè)計(jì))
- 設(shè)計(jì)臺(tái)(雕塑設(shè)計(jì)用)





