[發明專利]一種不依賴文檔庫的多搜索引擎自動化對比評測方法有效
| 申請號: | 201310538069.5 | 申請日: | 2013-11-04 |
| 公開(公告)號: | CN103544307B | 公開(公告)日: | 2017-08-08 |
| 發明(設計)人: | 張鵬飛;趙毅強 | 申請(專利權)人: | 北京中搜云商網絡技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京安博達知識產權代理有限公司11271 | 代理人: | 徐國文 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 不依賴 文檔 搜索引擎 自動化 對比 評測 方法 | ||
技術領域
本發明屬于搜索引擎領域,具體涉及一種不依賴文檔庫的多搜索引擎自動化對比評測方法。
背景技術
如今的網絡環境下,搜索引擎已成為網民必不可少的工具;在互聯網中,存在許多搜索引擎。在對比各搜索引擎結果方面,主要有兩種方法:一種是人工選擇一些關鍵詞在各搜索引擎上進行搜索,得到結果頁面,將每條搜索結果進行打分,然后比對分數來評測出各搜索引擎間的優劣;另一種方法是依賴文檔庫的,按照準確率和召回率來進行各搜索引擎算法的評測。
人工評測搜索引擎的結果需要耗費大量的人力資源和時間。如果一個搜索引擎處于優化的狀態中,需要頻繁地進行評測,這無疑會給人工評測帶來巨大的難題,使人工評測變得不現實。
依賴文檔庫的方法只能用于線下的搜索引擎,由于各搜索引擎間的文檔庫不同,其無法對線上運行的搜索引擎進行評測。
發明內容
為了克服上述現有技術的不足,本發明提供一種能夠自動化地快速地將線上的搜索引擎進行評價的方法,通過該方法可以對比各搜索引擎間的結果差異,適合進行各搜索引擎間的定期對比評測和在優化搜索引擎時頻繁地進行評測來查看優化的算法是否成功。
為了實現上述發明目的,本發明采取如下技術方案:
一種不依賴文檔庫的多搜索引擎自動化對比評測方法,其特征在于,所述方法包括如下步驟:
A.選擇評測詞;
B.抓取搜索結果并保存為文檔;
C.提取文檔正文;
D.計算相關性;
E.整合文檔并按其相關性排序;
F.計算DCG;
G.按DCG結果進行排序,總結評測結果。
優選地,所述評測詞包括:網頁搜索中的頁面搜索關鍵詞、視頻搜索中的影片名稱或演員姓名。
優選地,其特征在于,所述抓取包括兩次抓取過程;
第一次抓取包括:根據關鍵詞生成搜索引擎的搜索結果鏈接,進行第一次抓取,用模板從各搜索引擎中提取出每個結果的相關信息和各結果頁面詳細信息的鏈接,并保存;所述模板為包括搜索條件的正則表達式;
第二次抓取包括:根據第一次抓取中取得的結果頁面詳細信息的鏈接抓取相應頁面,并按順序分別保存為文檔。
優選地,所述正文的提取方法包括:基于DOM樹的HTML提取方法、文本最長串的正文提取法;
所述基于DOM樹的HTML提取方法包括:將HTML文本轉化成一個DOM樹,然后根據DOM樹的節點分析來提取正文相關的內容,以除去頁面中無關信息;該無關信息包括:頁面噪音和HTML標簽;
所述文本最長串的正文提取法包括:在HTML頁面內容中找到最長的文本串,然后再前后擴展,直到擴展到閾值,再進行截斷,提取,得到文本的正文內容。
優選地,所述相關性的計算方法包括:詞頻比例法;該方法的表達式為:相關性=詞頻在本文檔中所占比例*詞頻在所有抓取結果中所占比例。
優選地,所述按相關性排序包括:將所述文檔平分為若干等級,并為每個等級設定相應的相關系數分數。
優選地,所述計算DCG如下式表達:
式中,s為文檔總篇數,i為該文檔所在等級的序數,reli為該文檔所在等級的相關系數分數。
優選地,將所述步驟F中所得計算結果進行排序并分析,得出多種輸出結果,生成報表;所述輸出結果包括:步驟F中所得計算結果的平均DCG分數排名,總DCG分數排名,所有關鍵詞中搜索結果優劣個數排名。
與現有技術相比,本發明的有益效果在于:
1)自動化,無需人工參與,節省大量人工;
2)快速,可短時間內獲得評測結果;
3)靈活,本發明的過程中,多處采用了可配置的模式,相關性計算等還可以自行調整,因此具有很高的靈活性;
4)整套方法可應用于多種垂直搜索中,不只是單純的網頁搜索,也可用于新聞搜索,視頻搜索等。
附圖說明
圖1是本發明評測過程流程圖。
具體實施方式
下面結合附圖對本發明作進一步詳細說明。
根據對各搜索引擎的分析以及用戶使用搜索引擎的調研等,可以確認用戶對搜索引擎的關注大多在準確性和排序兩方面,準確性是為了確保搜索結果顯示出的內容是用戶想要的,排序時為了把越貼近用戶需求的結果排在前面,讓用戶不需要下拉或者翻頁就能直接找到想要的內容,因此本發明主要以這兩方面作為出發點來實現各搜索引擎的結果的評測。
具體步驟如下:
1)選擇評測詞
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中搜云商網絡技術有限公司,未經北京中搜云商網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310538069.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:具附加功能的出水機構
- 下一篇:基于變頻調速的草坪噴頭變域噴灑周期確定方法





