[發明專利]一種搜索信息的方法、裝置和終端有效
| 申請號: | 201210102446.6 | 申請日: | 2012-04-09 |
| 公開(公告)號: | CN103365924A | 公開(公告)日: | 2013-10-23 |
| 發明(設計)人: | 楊建武;吳新麗;梁汝峰;于曉明;張丹;汪洋 | 申請(專利權)人: | 北京大學;北大方正集團有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 李娟 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 搜索 信息 方法 裝置 終端 | ||
技術領域
本發明涉及通信領域技術,尤其涉及一種搜索信息的方法、裝置和終端。
背景技術
隨著互聯網絡迅猛發展,網頁數量達到600多億,而且仍然以年增長率78.6%的速度增長。博客、微博等新型的自媒體網絡應用更是讓互聯網的內容呈幾何式增長。面對這樣的信息過載,不得不依賴搜索引擎這種過濾方式更高效地找到需要的內容和資源。
然而,目前在互聯網的600多億個網頁中,最多只有5%的網頁能夠出現在用戶搜索結果中。而且,用戶可能只有精力關注前100個搜索結果。因此,如何提供給用戶最精準的、貼合其需求的信息至關重要。當前,廣泛使用的谷歌、百度等搜索引擎,只是通過關鍵字詞進行搜索,并顯示給用戶一個可能有價值的網頁列表,而不能直接準確地提供用戶所需的信息。用戶需要再手工從大量雜亂無章的內容中篩選歸納出自己所需的信息和知識。這樣,就造成了用戶仍舊耗費了較多的時間與精力,搜索效率不高。
因此,現有技術中搜索信息的技術存在一定的技術缺陷,需要進行改進。
發明內容
本發明實施例提供了一種搜索信息的方法、裝置和終端,可以較為準確的為用戶提供貼切的搜索結果,提高搜索信息的效率。
本發明實施例提供了一種搜索信息的方法,包括:
從網頁采集源采集網頁信息;
根據采集的網頁信息,建立信息資料庫;
根據客戶端發送的搜索請求,在所述信息資料庫中進行搜索;
將搜索結果推送到所述客戶端進行顯示。
相應的,本發明實施例提供了一種搜索信息的裝置,包括:
采集模塊,用于從網頁采集源采集網頁信息;
建立模塊,用于根據采集的網頁信息,建立信息資料庫;
搜索模塊,用于根據客戶端發送的搜索請求,在所述信息資料庫中進行搜索;
推送模塊,用于將搜索結果推送到所述客戶端進行顯示。
相應的,本發明實施例提供了一種終端,包括:上述搜索信息的裝置。
本發明實施例提供了一種搜索信息的方法、裝置和終端,用于從網頁采集源采集網頁信息;根據采集的網頁信息,建立信息資料庫;根據客戶端發送的搜索請求,在所述信息資料庫中進行搜索;將搜索結果推送到所述客戶端進行顯示。使用本發明實施例提供的搜索信息的方法、裝置和終端,通過預先采集用戶關注的網頁信息,并使用該眾多網頁信息建立信息資料庫,當接收到客戶端發送的搜索請求時,在該信息資料庫中進行搜索,可以提高搜索效率,并且提高搜索精度。
附圖說明
圖1為本發明實施例中搜索信息的方法流程示意圖;
圖2為本發明另一實施例中搜索信息的方法流程示意圖;
圖3為本發明另一實施例中根據采集網頁信息建立信息資料庫的流程示意圖;
圖4為本發明實施例中搜索信息的裝置示意圖。
具體實施方式
下面結合各個附圖對本發明實施例技術方案的主要實現原理、具體實施方式及其對應能夠達到的有益效果進行詳細地闡述。
為了解決現有技術存在的問題,本發明實施例提供了一種搜索信息的方法,如圖1所示,該方法包括:
步驟101、從網頁采集源采集網頁信息;具體的,在網絡側服務器端,當網頁采集源為選定的網站時,根據預先配置的采集任務采用網絡爬蟲采集網頁信息;當網頁采集源為通過搜索引擎搜索的網頁時,采用預先配置的搜索規則搜索網頁,并采集網頁信息。其中,采集任務包括:欲采集的網站名稱、采集時的起始鏈接地址、采集的深度和刷新策略;網頁信息包括:元數據和正文。
步驟102、根據采集的網頁信息,建立信息資料庫;具體的,網絡側服務器將采集的網頁信息處理為采集結果文件并緩存;對采集結果文件進行自然語言處理,提取關鍵詞和摘要;存儲網頁信息、以及關鍵詞和摘要,建立信息資料庫。較佳的,提取關鍵詞和摘要之后,還包括:基于語料庫信息,采用文本分類模型對采集結果文件進行自動分類處理。較佳的,提取關鍵詞和摘要之后,還包括:基于垃圾詞匯表,對采集結果文件進行信息過濾。當然,也可以對自動分類處理后的采集結果文件進行信息過濾;或者對信息過濾后的采集結果文件進行自動分類處理;也可以僅進行某項處理。其中,將采集的網頁信息中的元數據、及提取的關鍵詞和摘要信息存儲到網頁庫;將采集的網頁信息中的正文以文件的形式存儲到文件庫中;將元數據、提取的關鍵詞和摘要信息、以及正文作為搜索時使用的信息資料庫資源。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學;北大方正集團有限公司;北京北大方正電子有限公司,未經北京大學;北大方正集團有限公司;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210102446.6/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





