[發明專利]網頁關鍵詞提取方法、裝置及系統有效
| 申請號: | 201010103257.1 | 申請日: | 2010-01-27 |
| 公開(公告)號: | CN102135967A | 公開(公告)日: | 2011-07-27 |
| 發明(設計)人: | 陸元飛;劉剛;朱汝維 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 關鍵詞 提取 方法 裝置 系統 | ||
技術領域
本發明涉及互聯網領域,特別涉及一種網頁關鍵詞提取方法、裝置及系統。
背景技術
網頁關鍵詞(keywords)的提取是海量數據背景下的互聯網應用中的一個熱點問題。為網頁提取適當的關鍵詞,可以用以提示和概括網頁的內容。網頁關鍵詞提取在基于關鍵詞的精準廣告,網頁摘要,網頁檢索,用戶行為分析中應用廣泛。
傳統做法(例如,KEA關鍵詞提取方法)傾向于從網頁文本中提取關鍵詞。先把網頁爬取下來,然后做網頁解析,提取網頁的標題,metadata(網頁元數據)信息和正文。然后再分詞,去除掉stop-word(停用詞)之后得到候選關鍵詞,再提取候選關鍵詞詞的特征,通過設定一系列復雜的規則或是通過人工智能的方式來給候選關鍵詞打分,設定閥值或是通過提取分數較高的前面N個侯選關鍵詞來提取關鍵詞。
需要解析網頁,提取網頁正文,解析網頁,提取網頁正文算法復雜,計算量大。而且由于互聯網上的網頁極不規則,提取網頁正文只在針對某種特定類型的網頁的時候效果才較好,例如已經產品化的中科院、海量等的網頁主題提取組件,但是都只針對特定類型的網頁,而網頁正文提取又和關鍵詞提取緊密聯系,如果提取的網頁正文里面包含廣告,版權等其它信息,可能會把廣告,版權等信息無提取為正文;或者是某部分重要內容沒有被提取出來,關鍵詞提取的精準度就會大大降低。因此,現有的網頁解析方法計算量大,關鍵詞提取的精準度不高。
發明內容
本發明實施例提供一種網頁關鍵詞的提取方法、裝置、及系統,以減少網頁解析的計算量,提高關鍵詞提取的精度。
本發明一個實施例提供一種網頁關鍵詞提取方法,包括:
爬取互聯網網頁;
提取爬取下來的網頁中的錨文本,提取所述錨文本的統一資源定位符URL和所述錨文本的周圍文本;
根據預定的規則,從所述錨文本和所述錨文本的周圍文本中提取關鍵詞;
將所述關鍵詞和所述錨文本的URL關聯,將所述關鍵詞作為所述錨文本的URL指向的網頁的網頁關鍵詞。
本發明一個實施例提供一種網頁關鍵詞提取裝置,包括:
爬取模塊,用于爬取互聯網網頁;
第一提取模塊,用于提取爬取下來的網頁中的錨文本;
第二提取模塊,用于提取所述錨文本的URL;
第三提取模塊,用于提取所述錨文本的周圍文本;
關鍵詞提取模塊,用于根據預定的規則,從所述錨文本和所述錨文本的周圍文本中提取關鍵詞;
關聯模塊,用于將所述關鍵詞和所述錨文本的URL關聯,將所述關鍵詞作為所述錨文本的URL指向的網頁的網頁關鍵詞。
本發明一個實施例提供一種關鍵詞提取系統,包括:網頁提取裝置和索引關鍵詞庫:
所述網頁關鍵詞提取裝置,用于用于爬取互聯網網頁;提取爬取下來的網頁中的錨文本;提取所述錨文本的URL和所述錨文本的周圍文本;根據預定的規則,從所述錨文本和所述錨文本的周圍文本中提取關鍵詞;將所述關鍵詞和所述錨文本的URL關聯,將所述關鍵詞作為所述錨文本的URL指向的網頁的網頁關鍵詞;
所述索引關鍵詞庫,用于存儲所述錨文本的URL和與所述錨文本的URL關聯的關鍵詞。
本發明實施例從錨文本和錨文本的周圍文本出發提取網頁關鍵詞,錨文本對具體內容網頁做了高度的精煉和概況,所以提取具體內容網頁的關鍵詞,直接從錨文本提取符合網站制作網頁的思路。同時錨文本周圍文本,對內容網頁的主題做了補充,通過這種方式,能提高關鍵詞提取的精準度,而且提取網頁關鍵詞時不需要對網頁正文進行提取,減少了復雜的網頁解析,降低了關鍵詞提取的計算量。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1本發明實施例提供一種網頁關鍵詞提取方法的流程圖;
圖2本發明實施例提供一種網頁關鍵詞提取方法的流程圖;
圖3本發明實施例提供一種網頁關鍵詞提取方法的流程圖;
圖4本發明實施例提供一種網頁關鍵詞提取裝置的結構圖;
圖5本發明實施例提供一種網頁關鍵詞提取裝置的結構圖;
圖6本發明實施例提供一種關鍵詞提取模塊的結構圖;
圖7本發明實施例提供一種關鍵詞提取模塊的結構圖;
圖8本發明實施例提供一種網頁關鍵詞提取系統的結構圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010103257.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電子設備的音頻處理裝置及方法
- 下一篇:機房節能散熱系統及其控制方法





