[發明專利]一種數據處理方法及裝置有效
| 申請號: | 201310712257.5 | 申請日: | 2013-12-19 |
| 公開(公告)號: | CN104731805B | 公開(公告)日: | 2018-12-07 |
| 發明(設計)人: | 白琳;王鋼;張慧芳;陳昌文;王繼偉 | 申請(專利權)人: | 中國移動通信集團廣東有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 許靜;黃燦 |
| 地址: | 510623 廣東省廣州市珠*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 | ||
本發明提供了一種數據處理方法及裝置,其中,所述方法包括:獲取待檢測圖片的第一特征值和圖片庫中的圖片的第二特征值;根據所述第一特征值和所述第二特征值,獲得所述待檢測圖片與所述圖片庫中的圖片之間的特征距離值;對所述特征距離值進行歸一化處理,獲得歸一化處理結果;根據所述歸一化處理結果,獲得所述待檢測圖片與所述圖片庫中的圖片的相似距離。本發明提供的方案相對簡單,能夠有效定量得到特征間的距離,同時又能夠方便的把多個特征的地位均衡;在對多個特征做歸一化后的值均大于等于0,不同圖片的特征有唯一的不同的歸一化值,保證同樣圖片的距離歸一后為0。通過技術改進提高了相似圖片搜索的質量。
技術領域
本發明涉及圖像圖形中相似距離計算技術領域,特別涉及一種數據處理方法及裝置。
背景技術
現有技術中計算圖像圖形的相似距離多使用如下四種方案:
方案一
現有的使用歸一法計算多特征計算距離的方案。一般都會采用高斯歸一算法,因為高斯歸一效果比較好,一般會使用下面(1-1)公式最終的歸一處理,簡單但降低了搜索的質量。原因是距離小于0的多個距離值都被歸一為0,而大于1的就被處理成1。
特征歸到0到1區間
其中,Ni為每一個特征歸一化后的值。
這個是被大量采用的方案,但有兩個非常明顯的缺點:
從公式(1-1)看出,多張圖片的特征值在歸一時可能因為小于0而被歸成0,這樣的話,不同的圖片距離值變得一樣,這明顯是有問題的,不利于找到最合適的相似圖。同樣大于1的情況也存在類似的問題。同時在邏輯上來說,如果距離為0的話,理想應該就是2張一模一樣的圖片,理想的情況是不同的圖片有不同的距離值。
由上分析得知,這樣沒有經過優化過的算法造成在相似搜索時質量變差,而精確搜索同樣的圖片時會出現多張不同的圖片但距離值都是0。
分析原因:造成的原因是公式(1-1)簡單歸一造成的,小于零的距離值都被歸成0,這樣的話有多張圖片的特征值在歸一時都被歸成0了,這時究竟哪張圖片的距離是最小呢?在相似距離的判斷中,這直接影響相似的排序和質量。簡單地把這一步去掉也不行,這樣的話就會存在負值了,負值的問題在于如果比較的2張圖片是一樣的,那計算出來的距離邏輯上應該為0才對。
方案二
聚類法-通過對多個特征進行聚類,使用K-MEAN等類似的聚類算法,得到相似特征集合。缺點是不方便定量得到精確的特征間的距離,結果粗糙,大多數時候是一個定性的結果。
方案三
直接使用廣義歐氏計算公式進行多特征整合,如下:
其中,wi是權重。優點是能定量得到特征的距離,但是,多個特征之間的地位不平等,需要進行大量的試驗確定wi來實現各個特征的平衡或者說是突出某一特征,即平衡各特征間地位的步驟相當復雜,而該步驟對相似度判斷結果影響較大。
方案四
主成分分析法principal component analysis(PCA)
主成分分析也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數幾個綜合指標。主成分分析法簡介-principal component analysis(PCA)主成分分析法是一種數學變換的方法,它把給定的一組相關變量通過線性變換轉成另一組不相關的變量,這些新的變量按照方差依次遞減的順序排列。在數學變換中保持變量的總方差不變,使第一變量具有最大的方差,稱為第一主成分;第二變量的方差次大,并且和第一變量不相關,稱為第二主成分;依次類推。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團廣東有限公司,未經中國移動通信集團廣東有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310712257.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:專利檢索相似度排序的方法
- 下一篇:一種實現頁面適配的方法、平臺及系統





