[發明專利]一種不依賴文檔庫的多搜索引擎自動化對比評測方法有效
| 申請號: | 201310538069.5 | 申請日: | 2013-11-04 |
| 公開(公告)號: | CN103544307B | 公開(公告)日: | 2017-08-08 |
| 發明(設計)人: | 張鵬飛;趙毅強 | 申請(專利權)人: | 北京中搜云商網絡技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京安博達知識產權代理有限公司11271 | 代理人: | 徐國文 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 不依賴 文檔 搜索引擎 自動化 對比 評測 方法 | ||
1.一種不依賴文檔庫的多搜索引擎自動化對比評測方法,其特征在于,所述方法包括如下步驟:
A.選擇評測詞;
B.抓取搜索結果并保存為文檔;
C.提取文檔正文;
D.計算相關性;
E.整合文檔并按其相關性排序;
F.計算DCG;
G.按DCG結果進行排序,總結評測結果;
所述評測詞為選取的3000個搜索引擎結果中的高頻詞;
所述相關性的計算方法包括:詞頻比例法;該方法的表達式為:相關性=詞頻在本文檔中所占比例*詞頻在所有抓取結果中所占比例;
所述正文的提取方法包括:基于DOM樹的HTML提取方法、文本最長串的正文提取法;
所述基于DOM樹的HTML提取方法包括:將HTML文本轉化成一個DOM樹,然后根據DOM樹的節點分析來提取正文相關的內容,以除去頁面中無關信息;該無關信息包括:頁面噪音和HTML標簽;
所述文本最長串的正文提取法包括:在HTML頁面內容中找到最長的文本串,然后再前后擴展,直到擴展到閾值,再進行截斷,提取,得到文本的正文內容。
2.如權利要求1所述的評測方法,其特征在于,所述評測詞包括:網頁搜索中的頁面搜索關鍵詞、視頻搜索中的影片名稱或演員姓名。
3.如權利要求1所述的評測方法,其特征在于,所述抓取包括兩次抓取過程;
第一次抓取包括:根據關鍵詞生成搜索引擎的搜索結果鏈接,進行第一次抓取,用模板從各搜索引擎中提取出每個結果的相關信息和各結果頁面詳細信息的鏈接,并保存;所述模板為包括搜索條件的正則表達式;
第二次抓取包括:根據第一次抓取中取得的結果頁面詳細信息的鏈接抓取相應頁面,并按順序分別保存為文檔。
4.如權利要求1所述的評測方法,其特征在于,所述按相關性排序包括:將所述文檔平分為若干等級,并為每個等級設定相應的相關系數分數。
5.如權利要求1所述的評測方法,其特征在于,所述計算DCG如下式表達:
式中,s為文檔總篇數,i為該文檔所在等級的序數,reli為該文檔所在等級的相關系數分數。
6.如權利要求1所述的評測方法,其特征在于:將所述步驟F中所得計算結果進行排序并分析,得出多種輸出結果,生成報表;所述輸出結果包括:步驟F中所得計算結果的平均DCG分數排名,總DCG分數排名,所有關鍵詞中搜索結果優劣個數排名。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中搜云商網絡技術有限公司,未經北京中搜云商網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310538069.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:具附加功能的出水機構
- 下一篇:基于變頻調速的草坪噴頭變域噴灑周期確定方法





