[發明專利]計算數據相似性的方法和裝置在審
| 申請號: | 202010543786.7 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN111723105A | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 李云鵬;余輝;李彥;亓超;馬宇馳 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06F16/2455;G06F16/27;G06K9/62;G06N20/00 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 張筱寧 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 計算 數據 相似性 方法 裝置 | ||
本申請實施例提供了一種計算數據相似性的方法和裝置,涉及計算機應用技術領域。該方法包括:對原始數據進行劃分,得到多個數據區塊;根據各個數據區塊的數據,分別計算得到各個數據區塊的多個數據向量;針對每個數據區塊,將任一查詢向量與每個數據區塊中的多個數據向量進行相似度計算,確定相似度計算結果。可見該方法在數據量龐大的情況下,通過化整為零劃分出數據區塊、并針對數據區塊進行相應操作的方式能夠提高計算速度;并且通過選取符合要求的相似度計算結果,精簡了后續操作時所需的數據量。
技術領域
本申請涉及計算機應用技術領域,具體而言,本申請涉及一種計算數據相似性的方法和裝置。
背景技術
隨著現代計算機和機器學習技術的進步,在安全、醫學、教育和在線信息服務等不同的應用領域中產生了大量的多媒體數據。因為多媒體對象具有多個屬性維度,因此對多媒體對象的描述就不能是簡單地用字母或數字。例如,不能單純使用幾個數字參數或文本字符串來描述人臉圖像等。因為,這些信息更適合使用一種多維的、易于分析的方式——特征向量來描述,由此對象信息的匹配,相似度計算也孕育而生。相似度計算就是比較兩個事物的相似性。一般通過計算事物的特征之間的距離,如果距離小,那么相似度大;如果距離大,那么相似度小。
隨著信息的不斷膨脹,信息間的相似度計算也變得愈加艱難,平方的時間復雜度使得該問題難以在單機環境下的有限時間內得到解決。目前計算特征向量相似度的方法包括暴力求解和矢量計算。
但本申請人發現上述兩種計算方式都存在一定的缺陷,例如暴力求解的有點是實現簡單,但缺點是由于平方的時間復雜度僅限于小規模數據;矢量計算是將向量組成矩陣形式,則向量間的相似性計算問題便轉為對該矩陣的運算問題,其優點是可以利用矩陣運算的優化技術將問題的時間復雜度降低,缺點是矩陣所容納的向量規模受機器內存限制。
可見上述方法中,在計算量龐大的情況下無法兼顧計算速度和計算時間。
發明內容
本申請提供了一種計算數據相似性的方法和裝置,可以解決在計算特征向量相似度時,因計算量龐大導致計算所需時間過長的問題。所述技術方案如下:
第一方面,提供了一種計算數據相似性的方法,該方法包括:
對原始數據進行劃分,得到多個數據區塊;
根據各個數據區塊的數據,分別計算得到各個數據區塊的多個數據向量;
針對每個數據區塊,將任一查詢向量與每個數據區塊中的多個數據向量進行相似度計算,確定相似度計算結果。
在一個可能實現的方式中,對原始數據進行劃分,得到多個數據區塊,包括:
按照彈性分布式方式對原始數據進行劃分,得到多個數據區塊。
在另一個可能實現的方式中,根據各個數據區塊的數據,分別計算得到各個數據區塊的多個數據向量,包括:
根據各個數據區塊的數據,通過預置的矢量計算方法分別計算得到各個數據區塊的多個數據向量。
在另一個可能實現的方式中,確定相似度計算結果,包括:
將得到的計算結果按照由大到小的順序進行排序,并將處于預定排序范圍內的相似度確定為相似度計算結果。
在另一個可能實現的方式中,確定相似度計算結果,包括:
將計算得到的、大于預設相似度閾值的計算結果確定為相似度計算結果。
第二方面,提供了一種計算數據相似性的裝置,該裝置包括:
劃分單元,用于對原始數據進行劃分,得到多個數據區塊;
計算單元,用于根據各個數據區塊的數據,分別計算得到各個數據區塊的多個數據向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010543786.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





