[發明專利]一種面向海量向量庫的快速檢索系統及方法在審
| 申請號: | 202011269580.6 | 申請日: | 2020-11-13 |
| 公開(公告)號: | CN112364080A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 謝建 | 申請(專利權)人: | 武漢長江通信智聯技術有限公司;武漢長江通信產業集團股份有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/28 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 許蓮英 |
| 地址: | 430074 湖北省武*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 海量 向量 快速 檢索系統 方法 | ||
本發明提出了一種面向海量向量庫的快速檢索系統及方法。包含中心控制單元和多個子系統單元,中心控制單元負責信號特征向量提取、任務分發與合并。各子系統建立無需聚類、增量式的數據結構,即簡化了構建數據結構的復雜度,也使得構建的數據結構不依賴于數據集分布,可以對海量向量進行快速檢索,同時也實現了樣本動態插入與刪除,能夠滿足更多的實際場景需求。本發明從待分裂樣本集中隨機選取節點,即簡化了計算,同時也使構建的數據結構不依賴于原始數據分布;本發明實現可動態向數據結構中增刪樣本,每次增刪樣本后無需重新構建數據結構模型。
技術領域
本發明屬于海量向量檢索領域,尤其涉及一種面向海量向量庫的快速檢索系統及方法。
背景技術
目前的海量向量檢索方法為基于Hadoop等框架的海量搜索方法,該方法通過將目標特征向量分發到不同的子系統單元中,每個子系統單元單獨完成各自的檢索任務,最后將各自的檢索結構合并起來得到最后結果;基于數據結構的方法,首先將海量向量特征通過聚類將其進行劃分,然后通過對聚類的結果構建一種數據結構模型。檢索時只需要將檢索的目標特征向量通過數據結構快速找到其所屬的聚類類別,然后遍歷該聚類類別中的所有樣本實現目標向量檢索;基于級聯的方法,該方法先用簡單特征對樣本進行過濾,縮小檢索范圍,然后在小范圍內進行精確檢索。
基于Hadoop等框架的主要缺點是計算量大,資源耗費多,檢索效率低下。該方式采用的是暴力搜索的方式,需要將待檢索樣本與樣本庫所有樣本進行匹配。
基于數據結構的方法主要缺點是無法實現動態增刪樣本庫,內存需求大。該方法需要提前將樣本數據聚類,然后利用聚類結果生成數據結構模型,當數據量很大時,特征聚類以及數據結構模型的建立很耗時;檢索過程中,首先要將整個數據結構模型加載到內存中,而模型的大小與樣本數量成正比。
基于級聯的方法,主要缺點是精度不高,檢索效率不高。簡單特征不能完全描述樣本的真實信息,利用簡單特征篩選過濾可能會導致性能下降;由于篩選過濾需要與所有樣本計算相似度,雖然采用的是簡單特征,簡化了計算,但樣本數據量巨大,耗時情況不能忽視,效率依然低下。
綜上所述,現有海量向量檢索方法主要技術問題如下:
檢索效率低下,檢索耗時與樣本庫大小成比例,當樣本庫很大(超過百萬)時,向量檢索速度無法滿足實時性需求。
無法實現動態樣本增刪,目前的快速海量向量檢索是先對樣本庫進行聚類,然后在聚類的基礎上構建特定的數據結構模型。一旦建立數據結構模型,就無法增刪樣本。
資源占用率高,如果用512維向量描述一個樣本,每個樣本所需空間約為2k,當樣本數量大于1億時,所需存儲空間超過200G。為了實現快速檢索,往往需要將其全部加載到內存,資源耗費巨大。
發明內容
為了解決上述技術問題,本發明提出了一種面向海量向量庫的快速檢索系統及方法。
本發明解決了目前海量向量庫檢索以下技術問題:
本發明系統包括中心控制單元以及多個子系統單元,所述中心控制單元與所述多個子系統單元依次連接。
本發明的技術方案為一種面向海量向量庫的快速檢索方法,其特征在于,包括以下步驟:
步驟1:中心控制單元提取原始信號的特征向量,人工標記原始信號數據的標簽,結合原始信號的特征向量構建原始信號數據的樣本,根據原始信號數據的標簽對原始信號數據的樣本排序得到排序后信號數據樣本,將相同的排序后信號數據樣本中標簽對應的排序后信號數據樣本進行合并得到合并后信號數據樣本集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢長江通信智聯技術有限公司;武漢長江通信產業集團股份有限公司,未經武漢長江通信智聯技術有限公司;武漢長江通信產業集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011269580.6/2.html,轉載請聲明來源鉆瓜專利網。





