[發明專利]判斷一組查詢關鍵字或詞在網頁中位置相關性的方法無效
| 申請號: | 01109132.0 | 申請日: | 2001-03-09 |
| 公開(公告)號: | CN1306258A | 公開(公告)日: | 2001-08-01 |
| 發明(設計)人: | 王建勇;李曉明;謝正茂;單松巍;趙江華 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京大學專利事務所 | 代理人: | 余長江 |
| 地址: | 10087*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 判斷 一組 查詢 關鍵字 網頁 位置 相關性 方法 | ||
1、一種判斷一組查詢關鍵字或詞在網頁中位置相關性的方法,應用該方法的相應的搜索引擎系統主要包括網頁搜集器、索引器以及檢索器3個部分,其特征在于:為每個關鍵字或關鍵詞計算出其前面一個相鄰字/詞和后面一個相鄰字/詞;當用戶提交查詢請求時,檢索器判斷在用戶查詢關鍵字/詞中相鄰的字/詞在網頁中是否也相鄰;如果完全相鄰,則將網頁的權值適當提高,根據權值輸出查詢結果。
2、根據權利要求1所述的判斷一組查詢關鍵字或詞在網頁中位置相關性的方法,其特征在于:依據頻率確定關鍵字或關鍵詞的前向相鄰字/詞和后向相鄰字/詞。
3、根據權利要求1或2所述的判斷一組查詢關鍵字或詞在網頁中位置相關性的方法,其特征在于:搜集器首先從頭至尾地掃描網頁,對出現的句子做詞語切分處理,得到一組在網頁中出現的關鍵字/詞,記錄每個字/詞在網頁中首次出現的次序,并且記錄相鄰的字/詞之間的位置相鄰信息。
4、根據權利要求3所述的判斷一組查詢關鍵字或詞在網頁中位置相關性的方法,其特征在于:搜集器的掃描過程結束時,對每個關鍵字/詞,根據記錄下的其前/后向相鄰字/詞以及它們各自出現了多少次,以出現次數最多的前/后向相鄰字/詞作為其最終的前/后向相鄰字/詞。
5、根據權利要求4所述的判斷一組查詢關鍵字或詞在網頁中位置相關性的方法,其特征在于:搜集器以最終的前/后向相鄰字/詞的信息來構造帶位置相關性信息的前向索引表。
6、根據權利要求5所述的判斷一組查詢關鍵字或詞在網頁中位置相關性的方法,其特征在于:索引器根據帶位置相關性信息的前向索引表生成帶位置相關性信息的倒排索引表。
7、根據權利要求6所述的判斷一組查詢關鍵字或詞在網頁中位置相關性的方法,其特征在于:當用戶提交一個查詢項時,檢索器首先把該查詢項分解為若干個關鍵字或詞,然后根據索引器生成的帶位置相關性信息的倒排索引表找出包含了所有這些關鍵字/詞的網頁,計算這些網頁的權值;并且根據帶位置相關性信息的倒排索引表中的位置相關性信息判斷這些查詢字/詞在這些網頁中是否位置完全相鄰,若相鄰則把相應網頁的權值提高,最后把查詢結果排序輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/01109132.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:掃描器運動軌跡平穩度的測試方法
- 下一篇:合成汽油





