[發明專利]一種篩選網頁上鏈接的方法和裝置有效
| 申請號: | 200810071574.2 | 申請日: | 2008-08-12 |
| 公開(公告)號: | CN101650715A | 公開(公告)日: | 2010-02-17 |
| 發明(設計)人: | 陳奮;騰達;吳鴻偉 | 申請(專利權)人: | 廈門市美亞柏科信息股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 361008福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 篩選 網頁 鏈接 方法 裝置 | ||
1.一種篩選網頁上鏈接的方法,其特征在于,包括:
從搜索任務網站的首頁及部分相關頁面中提取鏈接;
拆分所述鏈接為域名部分和相對路徑部分;
以所述域名和搜索任務網站的域名相同的每個鏈接的相對路徑為一行,組成一個鏈接矩陣;
將所述鏈接矩陣轉換為數值矩陣;
通過智能算法,將所述數值矩陣的行按不同類別分組;
根據所述分組的行數目,提取與所述搜索任務網站相關鏈接的特征表達式,和/或過濾與所述搜索任務網站無關鏈接的特征表達式。
2.根據權利要求1所述的方法,其特征在于,所述智能算法為統計學的歸納算法、人工智能中的遺傳算法、數據挖掘中的聚類算法中的一種。
3.根據權利要求1或2所述的方法,其特征在于,還包括:
根據所述分組的行數目,判斷分組所對應的鏈接是否為與所述搜索任務網站相關鏈接。
4.根據權利要求1或2所述的方法,其特征在于,通過智能算法,將所述數值矩陣的行按不同類別分組的步驟具體為:
格式化所述數值矩陣為模糊矩陣;
獲取所述模糊矩陣各行之間的相似度;
根據所述相似度,將所述模糊矩陣的行分組。
5.一種篩選網頁上鏈接的裝置,其特征在于,包括:
鏈接提取模塊,用于從搜索任務網站的首頁及部分頁面中提取鏈接;
鏈接拆分模塊,用于拆分所述鏈接為域名部分和相對路徑部分;
智能分析模塊,用于對域名和搜索任務網站的域名相同的鏈接的相對路徑進行智能分析;
鏈接特征篩選模塊,與所述智能分析模塊相連,包括:
組合模塊,用于以所述域名和搜索任務網站的域名相同的每個鏈接的相對路徑為一行,組成一個鏈接矩陣;
轉換模塊,用于將所述鏈接矩陣轉換為數值矩陣;
分組模塊,用于通過智能算法,將所述數值矩陣的行按不同類別分組;
篩選子模塊,根據所述分組的行數目,判斷分組所對應的鏈接是否為與所述搜索任務網站相關鏈接,提取與搜索任務網站相關鏈接的特征表達式,和/或過濾與搜索任務網站無關的鏈接的特征表達式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門市美亞柏科信息股份有限公司,未經廈門市美亞柏科信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810071574.2/1.html,轉載請聲明來源鉆瓜專利網。





