[發(fā)明專利]一種海量數(shù)據(jù)多維排序搜索方法在審
申請(qǐng)?zhí)枺?/td> | 201710362446.2 | 申請(qǐng)日: | 2017-05-12 |
公開(公告)號(hào): | CN107169114A | 公開(公告)日: | 2017-09-15 |
發(fā)明(設(shè)計(jì))人: | 趙志濱;顧佳良;姚蘭;高福祥 | 申請(qǐng)(專利權(quán))人: | 東北大學(xué) |
主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
代理公司: | 暫無信息 | 代理人: | 暫無信息 |
地址: | 110819 遼寧*** | 國(guó)省代碼: | 遼寧;21 |
權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關(guān)鍵詞: | 一種 海量 數(shù)據(jù) 多維 排序 搜索 方法 | ||
1.一種海量數(shù)據(jù)多維排序搜索方法,其特征在于,包括以下步驟:
1)根據(jù)數(shù)據(jù)庫中文檔的領(lǐng)域相關(guān)度,將文檔進(jìn)行聚類,得到聚類組織相似查詢樹;
2)將不同的領(lǐng)域的聚類組織進(jìn)行聚類,形成相似查詢樹;
3)獲取用戶提交的查詢向量,將查詢向量表示為查詢超球體;
4)根據(jù)查詢超球體與相似查詢樹中節(jié)點(diǎn)所代表的超球體的位置關(guān)系,獲取與查詢超球體交集最多的超球體,并對(duì)該超球體向下一層節(jié)點(diǎn)尋找,直到葉子節(jié)點(diǎn),并查詢其左右鄰居節(jié)點(diǎn),按照相關(guān)比例返回節(jié)點(diǎn)中k個(gè)最相關(guān)的文檔列表以及文檔向量。
2.根據(jù)權(quán)利要求1所述的海量數(shù)據(jù)多維排序搜索方法,其特征在于,所述步驟1)具體為:
1.1、根據(jù)數(shù)據(jù)庫中文檔的領(lǐng)域相關(guān)度,對(duì)相同領(lǐng)域的文檔生成一個(gè)多維的文檔向量DC;
1.2、設(shè)置單個(gè)槽中元素的門限值T;
1.3、初始化文檔向量DC中選擇向量值最大和最小的對(duì)象,分別做所有槽的上下界;
1.4、確定初始k值,將文檔向量DC化為等大小區(qū)間槽,利用公式(1)將所有文檔集放入對(duì)應(yīng)槽中,選取其中與槽中心點(diǎn)最近的對(duì)象作為該聚類中心,所述公式(1):
其中,p為文檔集中的點(diǎn),Omax為文檔集中向量最大的對(duì)象,Omin為文檔集中向量最小的對(duì)象;
1.5、檢測(cè)所有槽中成員元素是否超過門限值T,若存在超過門限值T,則對(duì)該槽繼續(xù)進(jìn)行聚類,生成子槽。
3.根據(jù)權(quán)利要求2所述的海量數(shù)據(jù)多維排序搜索方法,其特征在于,所述步驟1.3與1.4之間還包括步驟:
對(duì)于新加入文檔向量DC的文檔對(duì)象,檢測(cè)與各個(gè)槽之間的距離,決定加入槽,并與當(dāng)前中心點(diǎn)比較,若其與槽中心點(diǎn)向量差小于當(dāng)前中心點(diǎn),則將該對(duì)象替換為中心點(diǎn),若超出原聚類的上下界則以該對(duì)象作為中心點(diǎn),按比例建立新槽。
4.根據(jù)權(quán)利要求1所述的海量數(shù)據(jù)多維排序搜索方法,其特征在于,所述步驟2)包括將聚類組織相似查詢樹中葉子節(jié)點(diǎn)加入指向其左右兄弟節(jié)點(diǎn)指針。
5.根據(jù)權(quán)利要求1所述的海量數(shù)據(jù)多維排序搜索方法,其特征在于,所述步驟4)具體包括:
4.1、服務(wù)器首先計(jì)算查詢超球體和根節(jié)點(diǎn)各個(gè)超球體之間的關(guān)系,得到交集最多的某個(gè)超球體;
4.2、根據(jù)得到的超球體,繼續(xù)向下一層節(jié)點(diǎn)尋找交集最多的超球體;
4.3、重復(fù)步驟4.2,直到葉子節(jié)點(diǎn),計(jì)算葉子節(jié)點(diǎn)和查詢超球體球心OQw之間的距離,獲得與查詢超球體交集最大的葉子節(jié)點(diǎn);
4.4、查找所述相交的葉子節(jié)點(diǎn)的左右鄰居節(jié)點(diǎn),按比例范圍最近的k個(gè)文檔及列表。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東北大學(xué),未經(jīng)東北大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710362446.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種數(shù)據(jù)庫海量數(shù)據(jù)比對(duì)的方法
- 基于云計(jì)算的海量數(shù)據(jù)訪問處理系統(tǒng)
- 一種實(shí)現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲(chǔ)方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實(shí)現(xiàn)海量數(shù)據(jù)準(zhǔn)實(shí)時(shí)全量統(tǒng)計(jì)的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點(diǎn)數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲(chǔ)方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 多維、多元生命水及其用途
- 一種多維地址域名解析的方法和裝置以及系統(tǒng)
- 創(chuàng)建多維操作系統(tǒng)的方法和裝置
- 一種對(duì)多維地址數(shù)據(jù)進(jìn)行解析的方法和裝置以及系統(tǒng)
- 一種分組的交付和路由選擇的方法和裝置以及系統(tǒng)
- 多維碼處理方法、發(fā)送端、接收端和系統(tǒng)
- 多維度信息展示方法及裝置
- 一種屏幕可視化方法、裝置、電子設(shè)備及介質(zhì)
- 多維數(shù)據(jù)集的生成方法及裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 多維時(shí)空譜數(shù)據(jù)融合方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)