[發明專利]一種基于二級倒排表的樹狀音頻特征索引庫建立方法在審
| 申請號: | 201810455198.0 | 申請日: | 2018-05-14 |
| 公開(公告)號: | CN108664622A | 公開(公告)日: | 2018-10-16 |
| 發明(設計)人: | 張衛強;袁慶升;劉藝;包秀國;張鴻;汪立東;杜翠蘭;劉洋;劉加 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心;清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京眾合誠成知識產權代理有限公司 11246 | 代理人: | 張文寶 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 索引庫建立 音頻特征 倒排表 量化 殘差 數字集成電路芯片 音頻數據庫 矢量量化 分段 | ||
本發明公開了一種基于二級倒排表的樹狀音頻特征索引庫建立方法,所述音頻特征索引庫建立方法在數字集成電路芯片中進行以下步驟:步驟1:對音頻數據庫中的所有特征分段進行粗量化;步驟2:對步驟1中的粗量化殘差進行二級粗量化;步驟3:對粗量化殘差進行乘積矢量量化;步驟4:插入倒排表。
技術領域
本發明涉及音頻信號處理技術領域,特別是涉及基于二級倒排表的超大規模樹狀音頻特征索引庫建立方法。
背景技術
音頻檢索是音頻信號處理領域的一項基本操作,對于小規模的音頻檢索問題,可以遍歷查找即可獲得很好檢索結果;但是對于超大規模音頻而言,需要檢索的音頻數據庫是海量規模,數據庫內的音頻顆粒數量巨大,將待查找音頻與數據所有的內容比較將花費大量時間,在實際應用中不可承受。
因此希望有一種基于二級倒排表的超大規模樹狀音頻特征索引庫建立方法,以解決現有技術中存在的問題。
發明內容
本發明的目的在于提供一種基于二級倒排表的超大規模樹狀音頻特征索引庫建立方法,對于每一個待查找音頻顆粒,索引庫直接給出其近鄰可能出現的入口,系統只要通過這些入口來查找數據庫中已有的音頻特征。
所述音頻特征索引庫建立方法在數字集成電路芯片中進行以下步驟:
步驟1:對音頻數據庫中的所有特征分段進行粗量化;
步驟2:對步驟1中的粗量化殘差進行二級粗量化;
步驟3:對粗量化殘差進行乘積矢量量化;
步驟4:插入倒排表。
優選地,所述步驟1對所述音頻數據庫中的所有特征分段,每4幀組成一個音頻顆粒,對音頻顆粒矢量量化以進行所述粗量化。
優選地,所述步驟1通過對所述音頻數據庫中的每個特征顆粒y進行所述粗量化得到粗量化編碼和所述粗量化殘差,粗量化編碼是指與y最近鄰的碼本編號,所述粗量化殘差是指y與最近鄰碼本的差值。
優選地所述步驟1中按所述粗量化形成的樹狀結構建立倒排表以形成一級倒排表,粗量化碼本數量等于一級倒排表入口的個數。
優選的,為了再次減小需要搜索的音頻顆粒數量,所述步驟2使用矢量量化對所述步驟1的所述粗量化殘差進行所述二級粗量化,得到二級粗量化編碼。
優選的,所述步驟3中粗量化殘差的維數與所述音頻顆粒y的維數相同,對所有音頻顆粒對應的殘差分成4組,采用乘積矢量量化,每組量化為1字節,每個音頻顆粒對應的所述乘積矢量量化結果為4字節。
優選的,所述步驟4假設所述音頻顆粒y對應的粗量化編碼為i1,二級粗量化編碼為i2,所述每個音頻顆粒對應的乘積矢量量化得到的4字節碼字對應的唯一標識為ID,將ID與所述粗量化殘差組成的二元組插入到第i1個倒排索引的第i2個入口中。
優選的,所述音頻特征索引庫建立方法在數字集成電路芯片中還包括步驟5:保存所述步驟1中的粗量化編碼和所述步驟2中的二級粗量化編碼。
針對超大規模音頻檢索問題,本發明提出基于二級倒排表的超大規模樹狀音頻特征索引庫建立方法。音頻特征經過量化后,每個一級倒排表入口對應的是一系列二級倒排表入口,二級倒排表才對應到實際的音頻顆粒索引。通過多層次的倒排表查找,需要比對的索引數量呈指數下降,大大提高了檢索的速度。同時,由于多級倒排表是按照樹狀規則構建的,雖然比對的索引數量大大減少了,但是待檢索顆粒真正的近鄰仍有極大可能落在這個多級倒排表入口中,從而保證了檢索的精度。
附圖說明
圖1是基于二級倒排表的超大規模樹狀音頻特征索引庫建立方法的流程圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心;清華大學,未經國家計算機網絡與信息安全管理中心;清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810455198.0/2.html,轉載請聲明來源鉆瓜專利網。





