[發(fā)明專(zhuān)利]向量相似度計(jì)算方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202111536035.3 | 申請(qǐng)日: | 2021-12-15 |
| 公開(kāi)(公告)號(hào): | CN114238329A | 公開(kāi)(公告)日: | 2022-03-25 |
| 發(fā)明(設(shè)計(jì))人: | 舒暢;陳又新 | 申請(qǐng)(專(zhuān)利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類(lèi)號(hào): | G06F16/22 | 分類(lèi)號(hào): | G06F16/22;G06F16/2455;G06K9/62;G06N20/00 |
| 代理公司: | 廣州嘉權(quán)專(zhuān)利商標(biāo)事務(wù)所有限公司 44205 | 代理人: | 廖慧賢 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 向量 相似 計(jì)算方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)實(shí)施例提出一種向量相似度計(jì)算方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),屬于機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域。其中方法包括:獲取查詢(xún)向量,計(jì)算查詢(xún)向量與預(yù)設(shè)的第一簇心之間的第一距離,根據(jù)第一距離和預(yù)設(shè)第一閾值,從對(duì)應(yīng)第一簇心的第一簇中選取第一查詢(xún)簇,根據(jù)查詢(xún)向量的多個(gè)查詢(xún)子段向量在第一查詢(xún)簇中進(jìn)行向量分段計(jì)算,得到第二距離,根據(jù)第二距離計(jì)算向量相似度值。本實(shí)施例首先篩選得到第一查詢(xún)簇,避免在整個(gè)數(shù)據(jù)庫(kù)中進(jìn)行查詢(xún),在一定程度上減少查詢(xún)數(shù)據(jù)量,然后在第一查詢(xún)簇中進(jìn)行向量分段計(jì)算,通過(guò)分段查詢(xún)簡(jiǎn)化計(jì)算的過(guò)程,降低計(jì)算復(fù)雜程度,減少計(jì)算成本,能夠高效的計(jì)算向量之間的相似度,適用于數(shù)據(jù)量大或者維度高的復(fù)雜業(yè)務(wù)場(chǎng)景。
技術(shù)領(lǐng)域
本申請(qǐng)實(shí)施例涉及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及一種向量相似度計(jì)算方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著互聯(lián)網(wǎng)時(shí)代的發(fā)展,互聯(lián)網(wǎng)信息數(shù)據(jù)正以極快的速度增長(zhǎng)。由于大數(shù)據(jù)的發(fā)展及人工智能的應(yīng)用,迫切需要發(fā)現(xiàn)大型數(shù)據(jù)集中的數(shù)據(jù)模式,類(lèi)似于數(shù)據(jù)挖掘技術(shù),使用不同的方式來(lái)分析數(shù)據(jù)集。例如在數(shù)據(jù)庫(kù)中快速且準(zhǔn)確地進(jìn)行向量相似性搜索,相似性搜索的目的是迅速地標(biāo)識(shí)數(shù)據(jù)集中類(lèi)似于特定的查詢(xún)向量的向量。
但是在數(shù)據(jù)庫(kù)中計(jì)算向量之間的相似度,計(jì)算復(fù)雜度會(huì)隨著目標(biāo)數(shù)據(jù)量的增加而線性增加,例如數(shù)據(jù)庫(kù)中有1000萬(wàn)條向量數(shù)據(jù),現(xiàn)需要計(jì)算數(shù)據(jù)庫(kù)中哪個(gè)向量表示與查詢(xún)向量最相似,此時(shí)的時(shí)間復(fù)雜度為O(N),即需要把查詢(xún)向量與數(shù)據(jù)庫(kù)中的1000萬(wàn)向量數(shù)據(jù)逐一計(jì)算,即計(jì)算1000萬(wàn)次。此時(shí)如果數(shù)據(jù)庫(kù)中的數(shù)據(jù)增加了1000萬(wàn),此時(shí)需計(jì)算2000萬(wàn)次,計(jì)算成本非常高,不利于工業(yè)級(jí)的應(yīng)用。相關(guān)技術(shù)中,向量相似度計(jì)算系統(tǒng)主要利用神經(jīng)網(wǎng)絡(luò)算法,該算法的優(yōu)點(diǎn)是計(jì)算精度高,但是缺點(diǎn)是實(shí)時(shí)性差;另一種非神經(jīng)網(wǎng)絡(luò)算法計(jì)算向量相似度,則存在計(jì)算精度低、計(jì)算復(fù)雜度高的問(wèn)題,難以在數(shù)據(jù)量大,維度高的復(fù)雜業(yè)務(wù)場(chǎng)景中使用。
發(fā)明內(nèi)容
以下是對(duì)本文詳細(xì)描述的主題的概述。本概述并非是為了限制權(quán)利要求的保護(hù)范圍。
本申請(qǐng)實(shí)施例提供一種向量相似度計(jì)算方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),能夠降低計(jì)算復(fù)雜程度,減少計(jì)算成本,提高向量相似度的計(jì)算效率。
第一方面,本申請(qǐng)實(shí)施例提供一種向量相似度計(jì)算方法,包括:
獲取查詢(xún)向量;
計(jì)算所述查詢(xún)向量與預(yù)設(shè)的第一簇心之間的第一距離;
根據(jù)所述第一距離和預(yù)設(shè)第一閾值,從對(duì)應(yīng)所述第一簇心的第一簇中選取第一查詢(xún)簇;
根據(jù)所述查詢(xún)向量的多個(gè)查詢(xún)子段向量在所述第一查詢(xún)簇中進(jìn)行向量分段計(jì)算,得到第二距離;
根據(jù)所述第二距離計(jì)算向量相似度值。
在一可選的實(shí)現(xiàn)方式中,所述獲取查詢(xún)向量之前,所述方法還包括:
獲取預(yù)設(shè)的查詢(xún)數(shù)據(jù)庫(kù);
對(duì)所述查詢(xún)數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)向量進(jìn)行第一聚類(lèi)處理,得到所述第一簇;其中每個(gè)所述第一簇包括一個(gè)第一簇心。
在一可選的實(shí)現(xiàn)方式中,所述根據(jù)所述查詢(xún)向量的多個(gè)查詢(xún)子段向量在所述第一查詢(xún)簇中進(jìn)行向量分段計(jì)算,得到第二距離,包括:
獲取預(yù)分段段數(shù);
根據(jù)所述預(yù)分段段數(shù)對(duì)所述查詢(xún)向量進(jìn)行分段處理,得到查詢(xún)子段向量,所述查詢(xún)子段向量的數(shù)量與所述預(yù)分段段數(shù)相等;
計(jì)算每個(gè)所述查詢(xún)子段向量與預(yù)設(shè)的第二簇心之間的第二距離。
在一可選的實(shí)現(xiàn)方式中,所述計(jì)算每個(gè)所述查詢(xún)子段向量與預(yù)設(shè)的第二簇心之間的第二距離之前,所述方法還包括獲取預(yù)設(shè)的第二簇心,具體包括:
獲取預(yù)設(shè)的查詢(xún)數(shù)據(jù)庫(kù);
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111536035.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類(lèi)別向量的方法和裝置
- 相似圖像提取裝置、相似圖像提取方法以及相似圖像提取程序
- 一種鋼結(jié)構(gòu)火災(zāi)反應(yīng)分析方法
- 相似度計(jì)算裝置、相似度計(jì)算方法以及相似度計(jì)算程序
- 一種蛋白質(zhì)相似度及相似蛋白質(zhì)的確定方法和系統(tǒng)
- 一種獲取相似語(yǔ)句的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種圖像搜索方法、裝置和存儲(chǔ)介質(zhì)
- 基于相似壽命模型和相似壽命的復(fù)雜產(chǎn)品可靠性評(píng)定方法
- 獲取機(jī)構(gòu)技術(shù)相似性的方法及裝置
- 口罩(相似)
- 臺(tái)燈(相似)
- 電網(wǎng)理論線損的計(jì)算方法和系統(tǒng)
- 一種基于XML的小衛(wèi)星遙測(cè)參數(shù)衍生計(jì)算方法
- 一種基于多尺度耦合的并行進(jìn)程合并方法及系統(tǒng)
- 一種注采井網(wǎng)流場(chǎng)速度的快速計(jì)算方法
- 一種自適應(yīng)實(shí)時(shí)火星系統(tǒng)星歷計(jì)算方法
- 基于分類(lèi)模型的合同費(fèi)用計(jì)算方法、裝置及計(jì)算機(jī)設(shè)備
- 一種超越函數(shù)計(jì)算方法及裝置
- 計(jì)算方法決定系統(tǒng)、計(jì)算方法決定方法、記錄介質(zhì)
- 一種混合湍流計(jì)算方法
- 一種基于芯片檢測(cè)的HRD評(píng)分計(jì)算方法
- 光源裝置、照明裝置、液晶裝置和電子裝置
- 預(yù)測(cè)裝置、編輯裝置、逆預(yù)測(cè)裝置、解碼裝置及運(yùn)算裝置
- 圖像形成裝置、定影裝置、遮光裝置以及保持裝置
- 打印裝置、讀取裝置、復(fù)合裝置以及打印裝置、讀取裝置、復(fù)合裝置的控制方法
- 電子裝置、光盤(pán)裝置、顯示裝置和攝像裝置
- 光源裝置、照明裝置、曝光裝置和裝置制造方法
- 用戶(hù)裝置、裝置對(duì)裝置用戶(hù)裝置、后端裝置及其定位方法
- 遙控裝置、通信裝置、可變裝置及照明裝置
- 透鏡裝置、攝像裝置、處理裝置和相機(jī)裝置
- 抖動(dòng)校正裝置、驅(qū)動(dòng)裝置、成像裝置、和電子裝置





