[發(fā)明專利]一種基于查詢?nèi)罩镜臄?shù)據(jù)處理方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201410026245.1 | 申請(qǐng)日: | 2014-01-20 |
| 公開(公告)號(hào): | CN104794129B | 公開(公告)日: | 2018-07-03 |
| 發(fā)明(設(shè)計(jì))人: | 楊國(guó)東;朱張斌;李群 | 申請(qǐng)(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京三友知識(shí)產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 黨曉林 |
| 地址: | 英屬開曼*** | 國(guó)省代碼: | 開曼群島;KY |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 查詢?nèi)罩?/a> 數(shù)據(jù)處理 查詢請(qǐng)求 搜索引擎 申請(qǐng) 數(shù)據(jù)處理系統(tǒng) 預(yù)定時(shí)間段 查詢結(jié)果 存儲(chǔ)內(nèi)容 命中率 存儲(chǔ) 修正 統(tǒng)計(jì) | ||
1.一種基于查詢?nèi)罩镜臄?shù)據(jù)處理方法,其特征在于,包括:
獲取預(yù)定時(shí)間段中搜索引擎的部分或全部的查詢?nèi)罩荆?/p>
對(duì)所述查詢?nèi)罩局械牟樵冋?qǐng)求的多元共現(xiàn)片段頻次進(jìn)行統(tǒng)計(jì);所述多元共現(xiàn)片段為:包含多個(gè)片段的集合;
對(duì)于每一多元共現(xiàn)片段,利用該多元共現(xiàn)片段在元數(shù)更高的共現(xiàn)片段中的出現(xiàn)頻次對(duì)所述多元共現(xiàn)片段的頻次進(jìn)行修正;
根據(jù)多元共現(xiàn)片段的元數(shù)及頻次選取一個(gè)或一個(gè)以上多元共現(xiàn)片段;
將選取的多元共現(xiàn)片段及其對(duì)應(yīng)的查詢結(jié)果存儲(chǔ)起來。
2.如權(quán)利要求1所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理方法,其特征在于,所述對(duì)多元共現(xiàn)片段頻次進(jìn)行統(tǒng)計(jì),包括:對(duì)每一查詢請(qǐng)求設(shè)置一個(gè)標(biāo)識(shí),利用所述標(biāo)識(shí)統(tǒng)計(jì)每一共現(xiàn)片段在查詢?nèi)罩镜牟樵冋?qǐng)求中出現(xiàn)的頻次;所述的標(biāo)識(shí)具有唯一性。
3.如權(quán)利要求2所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理方法,其特征在于,利用所述標(biāo)識(shí)統(tǒng)計(jì)每一共現(xiàn)片段在查詢?nèi)罩镜牟樵冋?qǐng)求中出現(xiàn)的頻次具體包括:
對(duì)于每個(gè)查詢請(qǐng)求,輸出每個(gè)查詢請(qǐng)求中多元共現(xiàn)片段和該查詢請(qǐng)求的標(biāo)識(shí)組成的鍵值對(duì);
將內(nèi)容相同的n元共現(xiàn)片段的鍵值對(duì)進(jìn)行合并,并利用所述標(biāo)識(shí)統(tǒng)計(jì)每一n元共現(xiàn)片段的頻次;所述n為整數(shù),2≤n≤N,所述N為查詢?nèi)罩局胁樵冋?qǐng)求的多元共現(xiàn)片段的最大片段元數(shù)。
4.如權(quán)利要求2所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理方法,其特征在于,所述對(duì)每一查詢請(qǐng)求設(shè)置一個(gè)標(biāo)識(shí),包括:計(jì)算每一查詢請(qǐng)求的信息-摘要算法5的值或者安全散列算法的值或RACE原始完整性校驗(yàn)消息摘要的值,將計(jì)算得到的值設(shè)置為該查詢請(qǐng)求的標(biāo)識(shí)。
5.如權(quán)利要求1所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理方法,其特征在于,對(duì)所述多元共現(xiàn)片段的頻次進(jìn)行修正,包括:對(duì)元數(shù)小于N的多元共現(xiàn)片段的頻次進(jìn)行修正,所述N為查詢?nèi)罩局胁樵冋?qǐng)求的多元共現(xiàn)片段的最大片段元數(shù)。
6.如權(quán)利要求1所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理方法,其特征在于,對(duì)于所述多元共現(xiàn)片段的頻次進(jìn)行修正,包括:
按照元數(shù)從高到低的順序依次對(duì)元數(shù)小于N的多元共現(xiàn)片段的頻次進(jìn)行修正,所述N為查詢?nèi)罩局胁樵冋?qǐng)求的多元共現(xiàn)片段的最大片段元數(shù)。
7.如權(quán)利要求6所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理方法,其特征在于,對(duì)所述多元共現(xiàn)片段的頻次進(jìn)行修正,包括:
將統(tǒng)計(jì)的k元共現(xiàn)片段的頻次減去包含k元共現(xiàn)片段內(nèi)容的k+1元共現(xiàn)片段的頻次,作為k元共現(xiàn)片段修正后的頻次;所述k為整數(shù),2≤k≤(N-1)。
8.如權(quán)利要求1所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理方法,其特征在于,所述根據(jù)多元共現(xiàn)片段的元數(shù)及頻次選取一個(gè)或一個(gè)以上多元共現(xiàn)片段,包括:
根據(jù)第一預(yù)設(shè)值,將共現(xiàn)片段的元數(shù)小于或等于所述第一預(yù)設(shè)值的設(shè)置為低元共現(xiàn)片段,將共現(xiàn)片段的元數(shù)大于所述第一預(yù)設(shè)值的設(shè)置為高元共現(xiàn)片段;
根據(jù)共現(xiàn)片段的元數(shù)及頻次選取所述低元共現(xiàn)片段和高元共現(xiàn)片段。
9.如權(quán)利要求8所述的一種基于查詢?nèi)罩镜臄?shù)據(jù)處理方法,其特征在于,所述根據(jù)共現(xiàn)片段的元數(shù)及頻次選取低元共現(xiàn)片段和高元共現(xiàn)片段,包括:
選取所述高元共現(xiàn)片段;
采用下列方式A-C中的一種或幾種的組合選取所述低元共現(xiàn)片段:
A:對(duì)共現(xiàn)片段的頻次設(shè)置一個(gè)閾值進(jìn)行過濾;當(dāng)共現(xiàn)片段的頻次大于或者等于設(shè)置的閾值時(shí),該共現(xiàn)片段被選中;
B:設(shè)定在低元共現(xiàn)片段中需要選取的總數(shù)目P,將所有的低元共現(xiàn)片段按照頻次進(jìn)行降序排列,然后選取排列的共現(xiàn)片段中前面的P個(gè)多元共現(xiàn)片段;所述P為正整數(shù),P的取值小于低元共現(xiàn)片段的總個(gè)數(shù);
C:按照共現(xiàn)片段元數(shù)的不同,分別進(jìn)行排序,排序后再分別選取每個(gè)元數(shù)的共現(xiàn)片段中排在前q%的共現(xiàn)片段,所述q的范圍包括:0<q<100。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410026245.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種基于兩級(jí)索引的分布式日志處理和查詢方法
- 一種日志查詢的處理方法及裝置
- 日志查詢方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 日志查詢方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種日志處理的方法及裝置、可讀存儲(chǔ)介質(zhì)
- 一種日志查詢方法、日志存儲(chǔ)方法以及相關(guān)設(shè)備
- 一種日志查詢方法、裝置、存儲(chǔ)介質(zhì)和電子設(shè)備
- 日志數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種日志查詢方法、裝置及存儲(chǔ)介質(zhì)
- 一種日志數(shù)據(jù)查詢方法及裝置、設(shè)備、介質(zhì)
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計(jì)算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 內(nèi)容-索引搜索系統(tǒng)和方法
- 通過若干搜索引擎實(shí)現(xiàn)的聯(lián)合搜索
- 一種深層網(wǎng)移動(dòng)搜索方法、服務(wù)器及系統(tǒng)
- 搜索引擎的狀態(tài)獲取方法、裝置以及瀏覽器
- 一種瀏覽器中進(jìn)行網(wǎng)頁搜索的方法及裝置
- 通過若干搜索引擎實(shí)現(xiàn)的聯(lián)合搜索
- 通過搜索引擎生成定制化內(nèi)容的方法、系統(tǒng)及搜索引擎
- 通過搜索引擎?zhèn)鬟f信息的方法、系統(tǒng)及搜索引擎
- 搜索引擎的切換方法、裝置以及電子設(shè)備
- 搜索引擎處理方法、裝置、終端及存儲(chǔ)介質(zhì)





