[發(fā)明專利]文件指紋處理方法及裝置有效
| 申請?zhí)枺?/td> | 201310079446.3 | 申請日: | 2013-03-13 |
| 公開(公告)號: | CN104050180B | 公開(公告)日: | 2017-06-06 |
| 發(fā)明(設計)人: | 張德明;張琦 | 申請(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司11205 | 代理人: | 王慶龍 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文件 指紋 處理 方法 裝置 | ||
技術(shù)領域
本發(fā)明實施例涉及計算機技術(shù),尤其涉及一種文件指紋處理方法及裝置。
背景技術(shù)
音頻指紋技術(shù)是當前流行的一種音頻信息檢索技術(shù)。該技術(shù)通過對原始音頻信號進行時頻變換后在頻域提取特征信息即音頻指紋,將特征信息保留下來構(gòu)建特征庫。當需要進行音頻檢索時,對待檢索音頻用同樣的方法提取音頻指紋,然后到特征庫進行匹配,當匹配成功時就能得到待檢索音頻的屬性信息,如音頻名稱、歌手名、發(fā)行年代等。
通常,音頻指紋用一個哈希矢量來表征,因此可以構(gòu)建一個地址長度與哈希矢量的位數(shù)對應的哈希表作為特征庫。具體地,在音頻信號中提取出音頻指紋后,在音頻指紋對應的哈希地址中加入音頻信號對應的信息,包括屬性信息、提取的指紋對應在音頻信號中的時間片段等。當不同的音頻信號提取出相同的音頻指紋時,就出現(xiàn)了哈希地址沖突現(xiàn)象。特別是基于海量音頻信號建立一個比較完備的數(shù)據(jù)庫時,將會出現(xiàn)大量的地址沖突。如果由于地址沖突導致不能在相應的哈希地址中存儲后面處理的音頻信號的信息,或者將前面存入的音頻信號的信息覆蓋掉,都會導致使用數(shù)據(jù)庫進行音頻檢索時匹配成功率下降。
現(xiàn)有音頻檢索系統(tǒng)在建立哈希表時根據(jù)系統(tǒng)限制確定均勻的哈希表深度,在處理地址沖突時,主要的解決方法是增加哈希表的深度,即在同一個哈希地址下開辟更大的空間存放每一個沖突的音頻信號對應的信息,但這會造成哈希表的極大冗余,導致音頻檢索效率低下和存儲空間的浪費。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種文件指紋處理方法及裝置,用以解決現(xiàn)有技術(shù)中在處理海量音頻信號建立數(shù)據(jù)庫時出現(xiàn)大量哈希地址沖突造成音頻信號不能正常存儲,導致音頻信號的指紋丟失的問題。
第一方面,本發(fā)明實施例提供一種文件指紋處理方法,包括:
確定文件指紋對應的哈希地址,所述哈希地址指向一個預先分配的存儲空間,所述哈希地址指向的存儲空間的可用空間長度根據(jù)文件指紋分布特性得到;
確定所述哈希地址指向的存儲空間的首地址;
根據(jù)所述存儲空間的首地址和所述存儲空間內(nèi)已添加信息的長度,在所述存儲空間中加入所述文件指紋對應的文件信息,并更新所述存儲空間內(nèi)已添加信息的長度。
在第一方面的第一種可能的實現(xiàn)方式中,還包括:
在所有文件指紋處理完成之后,根據(jù)各哈希地址指向的存儲空間內(nèi)已添加信息的長度,釋放各存儲空間內(nèi)未使用的空間。
根據(jù)第一方面、第一方面的第一種可能的實現(xiàn)方式,在第一方面的第二種可能的實現(xiàn)方式中,所述確定文件指紋對應的哈希地址之前,還包括:
根據(jù)統(tǒng)計得到的文件指紋分布特性,確定各哈希地址指向的存儲空間的可用空間長度;
根據(jù)各哈希地址指向的存儲空間的可用空間長度,為各哈希地址分配對應的存儲空間。
根據(jù)第一方面的第二種可能的實現(xiàn)方式,在第一方面的第三種可能的實現(xiàn)方式中,所述根據(jù)統(tǒng)計得到的文件指紋分布特性,確定各哈希地址指向的存儲空間的可用空間長度,包括:
根據(jù)統(tǒng)計得到的文件指紋分布特性,確定各哈希地址指向的存儲空間占所有哈希地址指向的總存儲空間的比例;
根據(jù)以下公式確定各哈希地址指向的存儲空間的可用空間長度:
Li=|K*θi|,Li為哈希地址i指向的存儲空間的可用空間長度,K為所有哈希地址指向的總存儲空間的長度,θi為哈希地址i指向的存儲空間占所有哈希地址指向的總存儲空間的比例,其中,N為文件指紋的比特數(shù)。
根據(jù)第一方面的第二種可能的實現(xiàn)方式或第一方面的第三種可能的實現(xiàn)方式,在第一方面的第四種可能的實現(xiàn)方式中,所述根據(jù)各哈希地址指向的存儲空間的可用空間長度,為各哈希地址分配對應的存儲空間,包括:
創(chuàng)建特征庫,所述特征庫包括第一空間、第二空間和第三空間;
將各哈希地址指向的存儲空間的可用空間長度保存在所述第一空間;
根據(jù)各哈希地址指向的存儲空間的可用空間長度,將所述第三空間劃分為各哈希地址指向的存儲空間,確定各哈希地址指向的存儲空間的首地址,并將各哈希地址指向的存儲空間的首地址保存在所述第二空間。
根據(jù)第一方面的第四種可能的實現(xiàn)方式,在第一方面的第五種可能的實現(xiàn)方式中,所述釋放各存儲空間內(nèi)未使用的空間之后,還包括:
將所述第一空間中保存的所述存儲空間的可用空間長度更新為所述存儲空間內(nèi)已添加信息的長度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310079446.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種成犬罐頭
- 下一篇:一種疏水親油柔軟氣凝膠塊體及其制備方法





