[發(fā)明專(zhuān)利]一種基于關(guān)鍵字的定向網(wǎng)頁(yè)采集方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710224022.X | 申請(qǐng)日: | 2017-04-07 |
| 公開(kāi)(公告)號(hào): | CN107169020B | 公開(kāi)(公告)日: | 2019-12-10 |
| 發(fā)明(設(shè)計(jì))人: | 徐小龍;楊春春 | 申請(qǐng)(專(zhuān)利權(quán))人: | 深圳市東晟數(shù)據(jù)有限公司 |
| 主分類(lèi)號(hào): | G06F16/9535 | 分類(lèi)號(hào): | G06F16/9535;G06F16/35;G06F16/33;G06F17/27 |
| 代理公司: | 44384 深圳市中科創(chuàng)為專(zhuān)利代理有限公司 | 代理人: | 譚雪婷;彭西洋 |
| 地址: | 518000 廣東省深圳市南山區(qū)粵海街道*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 關(guān)鍵字 定向 網(wǎng)頁(yè) 采集 方法 | ||
1.一種基于關(guān)鍵字的定向網(wǎng)頁(yè)采集方法,用于在指定網(wǎng)頁(yè)數(shù)據(jù)集中,查找與指定主題關(guān)鍵字相關(guān)的網(wǎng)頁(yè),其特征在于,包括如下步驟:
步驟1.判斷指定網(wǎng)頁(yè)數(shù)據(jù)集中的網(wǎng)頁(yè)個(gè)數(shù)是否小于預(yù)設(shè)最大待采集爬行頁(yè)面數(shù),是則進(jìn)入步驟6,否則進(jìn)入步驟2;
步驟2.在指定網(wǎng)頁(yè)數(shù)據(jù)集中隨機(jī)提取最大待采集爬行頁(yè)面數(shù)量的網(wǎng)頁(yè),作為待處理網(wǎng)頁(yè),通過(guò)步驟3,獲得各個(gè)待處理網(wǎng)頁(yè)分別與指定主題關(guān)鍵字的相關(guān)概率,然后進(jìn)入步驟4;
步驟3.分別針對(duì)各個(gè)待處理網(wǎng)頁(yè),分別執(zhí)行如下步驟301至步驟302,獲得各個(gè)待處理網(wǎng)頁(yè)分別與指定主題關(guān)鍵字的相關(guān)概率;
步驟301.針對(duì)待處理網(wǎng)頁(yè)的正文進(jìn)行分詞操作,構(gòu)建該待處理網(wǎng)頁(yè)正文所對(duì)應(yīng)的分詞集;步驟302.根據(jù)該待處理網(wǎng)頁(yè)正文所對(duì)應(yīng)分詞集中的各個(gè)分詞,采用樸素貝葉斯算法計(jì)算獲得該待處理網(wǎng)頁(yè)與指定主題關(guān)鍵字的相關(guān)概率;
步驟4.針對(duì)與指定主題關(guān)鍵字相關(guān)概率大于預(yù)設(shè)相關(guān)概率閾值的各個(gè)待處理網(wǎng)頁(yè),構(gòu)建該指定主題關(guān)鍵字所相關(guān)的采集網(wǎng)頁(yè)集合,并進(jìn)入步驟5;
步驟5.將該指定主題關(guān)鍵字,以及該指定主題關(guān)鍵字所相關(guān)的采集網(wǎng)頁(yè)集合作為訓(xùn)練樣本,訓(xùn)練獲得該指定主題關(guān)鍵字所對(duì)應(yīng)的網(wǎng)頁(yè)相關(guān)度采集器,通過(guò)該網(wǎng)頁(yè)相關(guān)度采集器實(shí)現(xiàn)與該指定主題關(guān)鍵字相關(guān)網(wǎng)頁(yè)的查找,所設(shè)計(jì)定向網(wǎng)頁(yè)采集方法結(jié)束;
步驟6.根據(jù)預(yù)設(shè)適應(yīng)度評(píng)價(jià)函數(shù),計(jì)算獲得指定網(wǎng)頁(yè)數(shù)據(jù)集中各個(gè)網(wǎng)頁(yè)的鏈接得分,并選取鏈接得分大于預(yù)設(shè)鏈接得分閾值的各個(gè)網(wǎng)頁(yè),作為待處理網(wǎng)頁(yè),通過(guò)步驟3,獲得各個(gè)待處理網(wǎng)頁(yè)分別與指定主題關(guān)鍵字的相關(guān)概率,然后進(jìn)入步驟7;
步驟7.針對(duì)與指定主題關(guān)鍵字相關(guān)概率大于預(yù)設(shè)相關(guān)概率閾值的各個(gè)待處理網(wǎng)頁(yè),構(gòu)建該指定主題關(guān)鍵字所相關(guān)的采集網(wǎng)頁(yè)集合,并進(jìn)入步驟8;
步驟8.選取步驟6中,將鏈接得分不大于預(yù)設(shè)鏈接得分閾值的各個(gè)網(wǎng)頁(yè),作為初級(jí)待處理網(wǎng)頁(yè),并針對(duì)所有初級(jí)待處理網(wǎng)頁(yè)進(jìn)行交叉變異操作,獲得各個(gè)中級(jí)待處理網(wǎng)頁(yè),然后進(jìn)入步驟9;
步驟9.獲得各個(gè)中級(jí)待處理網(wǎng)頁(yè)分別所對(duì)應(yīng)的父頁(yè)面,將各個(gè)父頁(yè)面作為待處理網(wǎng)頁(yè),通過(guò)步驟3,獲得各個(gè)待處理網(wǎng)頁(yè)分別與指定主題關(guān)鍵字的相關(guān)概率,并將與指定主題關(guān)鍵字相關(guān)概率大于預(yù)設(shè)相關(guān)概率閾值的各個(gè)待處理網(wǎng)頁(yè),加入到該指定主題關(guān)鍵字所相關(guān)的采集網(wǎng)頁(yè)集合中,并返回步驟5。
2.根據(jù)權(quán)利要求1所述基于關(guān)鍵字的定向網(wǎng)頁(yè)采集方法,其特征在于:所述步驟3中還包括步驟301-1如下,執(zhí)行完步驟301之后,進(jìn)入步驟301-1,執(zhí)行完步驟301-1之后,進(jìn)入步驟302;
步驟301-1.采用tf-idf算法計(jì)算待處理網(wǎng)頁(yè)正文所對(duì)應(yīng)分詞集中各個(gè)分詞的權(quán)重,并根據(jù)各個(gè)分詞的權(quán)重,針對(duì)該待處理網(wǎng)頁(yè)正文所對(duì)應(yīng)的分詞集進(jìn)行降維,更新該待處理網(wǎng)頁(yè)正文所對(duì)應(yīng)的分詞集。
3.根據(jù)權(quán)利要求2所述基于關(guān)鍵字的定向網(wǎng)頁(yè)采集方法,其特征在于:所述步驟3中還包括步驟301-2和步驟301-3如下,執(zhí)行完步驟301-1之后,進(jìn)入步驟301-2;執(zhí)行完步驟301-2之后,進(jìn)入步驟301-3;執(zhí)行完步驟301-3之后,進(jìn)入步驟302;
步驟301-2.采用空間向量模型算法,計(jì)算待處理網(wǎng)頁(yè)正文所對(duì)應(yīng)分詞集中各個(gè)分詞彼此之間的相似度;
步驟301-3.針對(duì)該待處理網(wǎng)頁(yè)正文所對(duì)應(yīng)分詞集中各個(gè)分詞,根據(jù)各個(gè)分詞彼此之間的相似度,采用k-means文本聚類(lèi)算法,針對(duì)彼此之間相似度大于預(yù)設(shè)相似度閾值的各個(gè)分詞進(jìn)行聚合,更新該待處理網(wǎng)頁(yè)正文所對(duì)應(yīng)的分詞集。
4.根據(jù)權(quán)利要求1所述基于關(guān)鍵字的定向網(wǎng)頁(yè)采集方法,其特征在于:所述步驟6中的預(yù)設(shè)適應(yīng)度評(píng)價(jià)函數(shù)如下:
Fitness(linki)=fsim+flink+fparent+fdatastruts+frelevanturls/totalurls+λ
其中Fitness(linki)代表第i個(gè)網(wǎng)頁(yè)的鏈接得分;fsim代表的是第i個(gè)網(wǎng)頁(yè)預(yù)測(cè)主題相關(guān)度;flink表示的是第i個(gè)網(wǎng)頁(yè)URL的鏈接分析值;fparent代表的是第i個(gè)網(wǎng)頁(yè)的父頁(yè)面的相關(guān)度,fdatastruts代表的是第i個(gè)網(wǎng)頁(yè)URL的標(biāo)簽權(quán)重值,frelevanturls/totalurls代表的是與指定主題關(guān)鍵字相關(guān)的網(wǎng)頁(yè)數(shù)量與網(wǎng)頁(yè)總數(shù)量的比值;λ是自適應(yīng)調(diào)整的動(dòng)態(tài)值。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于深圳市東晟數(shù)據(jù)有限公司,未經(jīng)深圳市東晟數(shù)據(jù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710224022.X/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種搜索網(wǎng)頁(yè)的方法和裝置
- 網(wǎng)頁(yè)類(lèi)型識(shí)別方法以及網(wǎng)頁(yè)類(lèi)型識(shí)別裝置
- 網(wǎng)頁(yè)生成方法及網(wǎng)頁(yè)生成裝置
- 網(wǎng)頁(yè)修改方法及網(wǎng)頁(yè)修改裝置
- 網(wǎng)頁(yè)訪問(wèn)處理方法
- 獲取網(wǎng)頁(yè)信息方法和裝置
- 網(wǎng)頁(yè)資源的獲取方法、裝置及終端
- 一種網(wǎng)頁(yè)制作方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及服務(wù)器
- 網(wǎng)頁(yè)安全處理方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種網(wǎng)頁(yè)同步的方法、系統(tǒng)





