[發明專利]基于Spark框架的海量人臉圖像檢索系統及檢索方法有效
| 申請號: | 201611190945.X | 申請日: | 2016-12-21 |
| 公開(公告)號: | CN106777167B | 公開(公告)日: | 2020-05-12 |
| 發明(設計)人: | 陳曉東;陳新荃 | 申請(專利權)人: | 中國科學院上海高等研究院 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/25;G06F16/22;G06F16/783 |
| 代理公司: | 上海光華專利事務所(普通合伙) 31219 | 代理人: | 余明偉 |
| 地址: | 201210 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 spark 框架 海量 圖像 檢索系統 檢索 方法 | ||
1.一種基于Spark框架的海量人臉圖像檢索系統,其特征在于,所述檢索系統包括:
前端處理系統,與用戶進行交互,用于采集待檢索圖像并將所述待檢索圖像發送給Spark分布式流式計算集群,及將檢索結果反饋給用戶;
與所述前端處理系統連接的Spark分布式流式計算集群,在索引階段,用于從HDFS分布式文件系統中讀取海量人臉圖像數據,并對讀取的海量人臉圖像數據進行分布式并行處理,生成視覺單詞詞匯表和倒排索引表;在檢索階段,用于對待檢索圖像進行分布式并行處理,根據視覺單詞詞匯表和倒排索引表對處理后的待檢索圖像進行分布式并行檢索,生成檢索結果,并將檢索結果反饋給前端處理系統;
與所述Spark分布式流式計算集群連接的HDFS分布式文件系統,用于存儲海量人臉圖像數據;
與所述Spark分布式流式計算集群連接的HBase分布式列式數據庫,用于存儲視覺特征單詞詞匯表及倒排索引表;
其中,所述Spark分布式流式計算集群包括:
驅動器,在索引階段,用于從HDFS分布式文件系統中讀取海量人臉圖像數據和從執行器中讀取局部區域圖像,進行拆分后分配給執行器;在檢索階段,用于將前端處理系統發送的待檢索圖像發送給執行器,再從執行器中讀取局部區域圖像,進行拆分后重新分配給執行器,以及對局部區域相似圖像進行處理,生成相似圖像列表并反饋給前端處理系統;
以及和所述驅動器連接的多個執行器,在索引階段,用于分別接收、處理驅動器分配的人臉圖像和局部區域圖像,生成視覺單詞詞匯表和倒排索引表;在檢索階段,用于接收、處理驅動器發送的待檢索圖像和待檢索圖像的局部區域圖像,并根據視覺單詞詞匯表和倒排索引表,分別對待檢索圖像的局部區域圖像進行檢索,生成局部區域相似圖像。
2.根據權利要求1所述的基于Spark框架的海量人臉圖像檢索系統,其特征在于,所述執行器通過OpenCV視頻/圖像處理庫對接收的人臉圖像和待檢索圖像進行人臉檢測,識別出局部區域圖像。
3.一種如權利要求1或2所述的基于Spark框架的海量人臉圖像檢索系統的檢索方法,其特征在于,所述檢索方法包括索引階段和檢索階段,其中,
索引階段:Spark分布式流式計算集群從HDFS分布式文件系統中讀取海量人臉圖像數據,并對讀取的海量人臉圖像數據進行分布式并行處理,生成視覺單詞詞匯表和倒排索引表,并保存到HBase分布式列式數據庫中;
檢索階段:前端處理系統接收到用戶請求后,采集待檢索圖像后并將所述待檢索圖像發送給Spark分布式流式計算集群;所述Spark分布式流式計算集群對待檢索圖像進行分布式并行處理后,再從HBase分布式列式數據庫中獲取視覺單詞詞匯表及倒排索引表,并采用Spark Transformation及Spark Action操作對處理后的待檢索圖像進行分布式并行檢索,生成檢索結果,最后將檢索結果通過前端處理系統反饋給用戶。
4.根據權利要求3所述的檢索方法,其特征在于,所述索引階段包括:
1.1)驅動器從HDFS分布式文件系統中讀取海量人臉圖像數據,并以圖像為粒度進行數據拆分,將讀取的人臉圖像數據分配給各執行器;
1.2)各執行器分別接收驅動器分配的人臉圖像數據,并通過OpenCV視頻/圖像處理庫對接收到的每張人臉圖像進行人臉檢測,識別出每張人臉圖像的局部區域圖像,并計算得到每張局部區域圖像對應的視覺特征描述符向量;
1.3)驅動器以局部區域圖像為粒度對所有執行器中的局部區域圖像進行拆分,將同一類局部區域圖像分配到同一執行器;
1.4)各執行器根據分配的局部區域圖像對應的視覺特征描述符向量,通過聚類算法對其內的視覺特征描述符向量進行聚類,生成視覺單詞詞匯表并保存到HBase分布式列式數據庫中,再通過對視覺單詞詞匯表中的視覺單詞進行分類統計,并根據分類統計結果計算視覺單詞的權重,生成倒排索引表,保存到HBase分布式列式數據庫中,其中,所述倒排索引表以key-value鍵值對的形式表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院上海高等研究院,未經中國科學院上海高等研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611190945.X/1.html,轉載請聲明來源鉆瓜專利網。





