[發明專利]一種基于多搜索引擎的Web信息檢索方法有效
| 申請號: | 201410278461.5 | 申請日: | 2014-06-20 |
| 公開(公告)號: | CN104008210B | 公開(公告)日: | 2017-04-26 |
| 發明(設計)人: | 李玉坤;許文亞 | 申請(專利權)人: | 李玉坤 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 天津佳盟知識產權代理有限公司12002 | 代理人: | 侯力 |
| 地址: | 300384*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 搜索引擎 web 信息 檢索 方法 | ||
1.一種基于多搜索引擎的WEB信息檢索方法,其特征在于該方法包括:
第1,首先用戶從搜索界面輸入搜索內容文本串S并提交;
第2,系統將搜索內容傳入總控制器;
第2.1,總控制器將傳入的文本串S進行預處理,去除首末空格,并判斷是否超出長度范圍,超出則進行字符串截斷處理,此處限制字符串長度為50個漢字大小;
第2.2,總控制器負責調度爬蟲程序,從各大搜索引擎爬取搜索結果;利用生產者-消費者模型提升爬取效率,由總控制器產生不同的生產者,一個生產者對應一個爬蟲線程,這樣多個爬蟲線程可以并行執行;
第2.3,爬蟲程序模擬客戶端向各大搜索引擎提交用戶輸入的文本串,得到返回結果集合,并過濾解析出每個網頁的標題、摘要和網址信息;
第3,將爬取的結果放入同步棧,并利用已有方法對結果進行去重處理,同時計算每個頁面的來源搜索引擎的個數;
第4,通過現有的分詞工具將輸入的文本串進行分詞,產生詞語集合W;
第5,對每個頁面進行評分;
第5.1,輸入文本經過分詞后,利用排列算法得到詞匯的所有排列,并過濾出排列為正向的所有字符串,這里正向是指字符串和輸入文本共有的詞排列順序一致;
第5.2,遍歷所有的排列情況,對于排列為正向的字符串,判斷頁面的標題和摘要中是否包含該字符串,包含則將該頁面得分加上這個組合情況的映射長度,映射長度是指該組合情況所包含的詞匯個數;
第5.3,將每個頁面的得分與此頁面的來源數相乘作為最終此頁面的評分;
第6,根據每個頁面的評分對頁面排序;
第7,計算系統用時;
第8,返回查詢結果給用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于李玉坤,未經李玉坤許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410278461.5/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





