[發(fā)明專利]一種網(wǎng)絡(luò)搜索方法及系統(tǒng)無效
| 申請?zhí)枺?/td> | 200710076116.3 | 申請日: | 2007-06-21 |
| 公開(公告)號: | CN101075252A | 公開(公告)日: | 2007-11-21 |
| 發(fā)明(設(shè)計)人: | 孫良 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳中一專利商標(biāo)事務(wù)所 | 代理人: | 張全文 |
| 地址: | 518044廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)絡(luò) 搜索 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明屬于網(wǎng)絡(luò)搜索領(lǐng)域,尤其涉及一種網(wǎng)絡(luò)搜索方法及系統(tǒng)。
背景技術(shù)
網(wǎng)絡(luò)搜索中,用戶輸入的檢索表達(dá)式為檢索串,檢索串中可以包含一個或者多個關(guān)鍵詞,中間采用空格隔開,空格表示其前后的關(guān)鍵詞將進(jìn)行邏輯與(AND)操作。關(guān)鍵詞為一個或者多個語素組成的字符串,它通過分詞系統(tǒng)可以被繼續(xù)切分。如果切分出2個語素,則稱該關(guān)鍵詞為2元復(fù)合語素,如果切分出3個語素,則稱該關(guān)鍵詞為3元復(fù)合語素。語素為最小能夠表達(dá)獨(dú)立語義的語言單位,它是不可分的。在中文中,語素為分詞系統(tǒng)中切分出的中文詞,在英文中,語素為基本的英文單詞或者字母。
在網(wǎng)絡(luò)搜索時,需要針對特定的檢索串在較短的時間內(nèi)找出所有包含該檢索串的文檔集合,該文檔集合通常使用文檔標(biāo)識(ID)列表來表示。通過文檔ID對被檢索的文檔進(jìn)行唯一編號,以保證每個文檔對應(yīng)一個唯一的ID,實(shí)現(xiàn)文檔的定位。
在網(wǎng)絡(luò)搜索引擎所應(yīng)用的各種技術(shù)中,后臺索引技術(shù)是最為核心的技術(shù),它直接關(guān)系到索引結(jié)構(gòu)的組織和訪問方式。不同的索引結(jié)構(gòu)帶來的索引訪問開銷差別很大。理論上,可以將整個索引文件都放到內(nèi)存中,能夠提供超過文件索引3-4個數(shù)量級以上的訪問速度,但在實(shí)際應(yīng)用環(huán)境中,由于網(wǎng)絡(luò)服務(wù)器的內(nèi)存容量總是不足,為了使單臺網(wǎng)絡(luò)服務(wù)器能夠支持更大的索引文檔數(shù)量,一般采用文件索引方式。
現(xiàn)有的文件索引主要利用倒排索引方式實(shí)現(xiàn)。倒排索引是用來加速對特定檢索串進(jìn)行檢索的數(shù)據(jù)結(jié)構(gòu),它可以以磁盤文件形式出現(xiàn),也可以加載到內(nèi)存中,其結(jié)構(gòu)是保存每個檢索關(guān)鍵詞對文檔的對應(yīng)關(guān)系表:
其中,t表示關(guān)鍵詞,di表示包含t的一系列文檔的ID,Wd,t表示t在文檔di中的權(quán)值,loci表示t在文檔di中出現(xiàn)的每個地方的位置偏移(offset),一般用兩個字節(jié)來表示。
倒排索引文件由N個上述數(shù)據(jù)項組成,N的數(shù)量等于整個文檔集合在進(jìn)行分析過程中得到的所有不同的關(guān)鍵詞的總和。通過上述數(shù)據(jù)結(jié)構(gòu),可以快速進(jìn)行針對特定檢索關(guān)鍵詞的查找。
當(dāng)用戶輸入的檢索串能被切分出2個或者2個以上的語素時,為了得到同時包含這兩個語素的文檔ID列表,必須進(jìn)行AND操作,并對AND操作后的文檔ID列表再進(jìn)行檢索關(guān)鍵詞的位置偏移匹配操作,以保證進(jìn)行AND操作的多個語素在同時出現(xiàn)的文檔中的前后位置偏移相鄰。在具體實(shí)現(xiàn)時,關(guān)鍵詞命中文檔中的位置偏移可以單獨(dú)用文件來存儲。
在網(wǎng)絡(luò)搜索中,用戶輸入的大部分檢索串由2個或者2個以上語素組成,在上述索引組織方式中,搜索時先進(jìn)行通常方式的文檔ID匹配,再進(jìn)行文檔內(nèi)的位置偏移匹配,會帶來多次磁盤文件的輸入輸出(IO)訪問,而且讀取文檔ID列表和位置偏移列表的數(shù)據(jù)量很大,尤其對于一些常用詞,例如“中國”,“網(wǎng)”,“我們”等高頻語素,其索引數(shù)據(jù)量通常占到整個倒排索引文件數(shù)據(jù)量的很大比例,要在短時間內(nèi)讀完這些索引數(shù)據(jù)是相當(dāng)困難的,這樣搜索的大部分時間都消耗在磁盤文件IO的讀取操作上,降低了長檢索串的搜索速度和系統(tǒng)整體的并發(fā)能力,同時加大了網(wǎng)絡(luò)服務(wù)器硬件設(shè)備的損耗,網(wǎng)絡(luò)服務(wù)器容易發(fā)生故障。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的在于提供一種網(wǎng)絡(luò)搜索方法,旨在解決現(xiàn)有對長檢索串進(jìn)行網(wǎng)絡(luò)搜索時,檢索速度慢,系統(tǒng)的并發(fā)處理能力低的問題。
本發(fā)明實(shí)施例是這樣實(shí)現(xiàn)的,一種網(wǎng)絡(luò)搜索方法,所述方法包括下述步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710076116.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:三向進(jìn)風(fēng)立式茶浴爐
- 下一篇:電腦鍵盤防塵裝置
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





