[發明專利]獲取頁面關鍵詞的方法及頁面信息處理裝置有效
| 申請號: | 200810025660.X | 申請日: | 2008-01-07 |
| 公開(公告)號: | CN101216842A | 公開(公告)日: | 2008-07-09 |
| 發明(設計)人: | 劉利鋒;丁一鳴;唐斐;雷宇 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州三環專利代理有限公司 | 代理人: | 郝傳鑫;熊賢卿 |
| 地址: | 518129廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 獲取 頁面 關鍵詞 方法 信息處理 裝置 | ||
技術領域
本發明涉及通信領域,尤其涉及一種獲取頁面關鍵詞的方法及一種頁面信息處理裝置。
背景技術
隨著因特網的迅速發展,網絡已經改變了人們獲取信息的主要方法與手段。其中,發展最為迅猛的萬維網(World?Wide?Web,WWW)技術,以其直觀、方便的使用方式和豐富的表達能力,已逐漸成為因特網上最重要的信息發布和傳輸方式。伴隨著信息時代的到來和發展,WEB上的信息也迅速增長起來。然而,WEB信息的急速膨脹,在給人們提供了豐富信息的同時,又使人們在對這些信息進行有效使用方面面臨著一個巨大的挑戰。一方面因特網(Internet)上的信息多種多樣、豐富多彩,而另一方面用戶卻找不到所需要的信息。因此,若WEB頁面的提供者對頁面內容進行預先處理,提取出該WEB頁面的關鍵詞,將每個頁面的關鍵詞與頁面內容關聯保存在數據庫中,這樣,當網絡用戶請求瀏覽某一頁面時,可先從數據庫中獲得該頁面對應的關鍵詞,最后將具有相同關鍵詞的頁面提供給用戶瀏覽,以便于網絡用戶從大量的WEB頁面中快捷準確地篩選出所需要的WEB頁面。
目前,WEB頁面的后綴有以下幾種:超文本標記語言(Hypertext?MarkupLanguage,HTML),超文本標記(Hypertext?Markup,HTM),超文本預處理器(Hypertext?Preprocessor,PHP),動態服務器頁面(Active?Server?Page,ASP),JAVA服務器端頁面(Java?Server?Page),服務器解析超文本標記語言(Server-parsed?HTML,SHTML)。其中,后綴是php,asp,jsp,shtml的頁面,在瀏覽器端所接收到的頁面都是HTML頁面。另外,根據爬蟲工具獲取到的頁面也是HTML頁面,與后綴是無關的。
可擴展標記語言(Extensible?Markup?Language,XML)是一種用戶可以根據自己的需求而設計標簽的語言。在網絡上獲取到的XML頁面,其中包含了在頁面上顯示的文本。但是XML頁面的顯示,需要一個xslt文件來把XML頁面當中的標簽轉化成為HTML標簽。這個xslt文件的鏈接在XML頁面當中提供。而對于XML頁面的處理需要提取當中所有的中文文本。
因此,可將網絡上的WEB頁面大體分為兩種類型:一是HTML頁面,一是XML頁面。
通常的HTML頁面具有以下表1所示的格式:
表1
現有技術中提供了一種獲取頁面關鍵詞的方法,該方法是根據WEB頁面標題詞根在頁面中的詞頻確定關鍵詞,具體過程如圖1所示,包括:
101,獲取WEB頁面標題;
102,對所述WEB頁面標題進行分詞,得到標題詞條的集合;
103,統計所述各標題詞條在所述頁面中出現的次數;
104,根據各標題詞條在所述WEB頁面中出現的次數,選擇其中出現次數多的標題詞條作為所述WEB頁面的關鍵詞,在具體實現時可采用一次數閾值,當所述標題詞條的出現次數達到該次數閾值時,則確定以該標題詞條作為WEB頁面的關鍵詞。
由于現有技術獲取頁面關鍵詞時,只考慮頁面標題中的詞條,而頁面標題不能完全覆蓋WEB頁面的內容情況,因此,現有技術獲取頁面關鍵詞具有局限性,獲取頁面關鍵詞的準確度較低。
發明內容
本發明實施例所要解決的技術問題在于,提供了一種獲取頁面關鍵詞的方法以及一種頁面信息處理裝置,可提高獲取WEB頁面關鍵詞的準確度。
為了解決上述技術問題,本發明實施例提出了一種獲取頁面關鍵詞的方法,包括:
獲取WEB頁面中的關鍵文本;
對所述關鍵文本進行分詞處理,得到所述關鍵文本的詞條;
將與預定義詞庫中預定義詞條匹配的所述關鍵文本的詞條確定為所述WEB頁面的關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810025660.X/2.html,轉載請聲明來源鉆瓜專利網。





