[發明專利]一種基于軟件定義的網絡分布式圖片搜索引擎框架在審
| 申請號: | 201610996857.2 | 申請日: | 2016-11-11 |
| 公開(公告)號: | CN106776694A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 張軍 | 申請(專利權)人: | 張軍 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200061 上海市普*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 軟件 定義 網絡 分布式 圖片 搜索引擎 框架 | ||
技術領域
本發明涉及一種基于軟件定義的網絡分布式圖片搜索引擎框架
背景技術
網絡爬蟲,也稱網絡蜘蛛、網絡機器人,是一個自動提取網頁的程序,它從因特網上下載網頁,是搜索引擎的重要組成部分。網絡爬蟲利用標準的HTTP協議,根據超級鏈接和Web文檔檢索的方法遍歷因特網信息空間。
目前搜索引擎只針對文本進行搜索,還不能對音樂、圖片和視頻等多媒體文件進行搜索,原因主要是多媒體數據量太大;如何索引多媒體文件;進而對處理過的多媒體文件檢索。現在因特網上有大量的多媒體文件,特別是社交網站和多媒體分享的興起,需要對多媒體文件進行精準檢索。
因特網上有數千種不同的數據類型,HTTP給每種要通過Web傳輸的對象都打上了名為MIME類型的數據格式標簽(常見圖片格式:image/jpeg,image/gif)。統一資源定位符(URL)是資源標識符最常見的形式。URL描述了一臺特定服務器上某資源的特定位置。元素文件(METAFILE)可提供有關頁面的元信息,如針對搜索引擎和更新頻度的描述和關鍵詞,可針對元素的關鍵詞進行索引。
UDP是OSI參考模型中一種無連接的傳輸層協議,它主要用于不要求分組順序到達的傳輸中,分組傳輸順序的檢查與排序由應用層完成,提供面向事務的簡單不可靠信息傳送服務。網絡圖片可通過UDP進行下載,因為UDP具有TCP所望塵莫及的速度優勢。
基于關鍵幀的網絡視頻格式文件摘要提取,計算量非常大,實時要求很難實現。而針對網絡視頻縮略圖進行檢索,是基于現有技術,一種可行的路徑。
要對多媒體文件進行精準檢索,首先要提供高可用的負載均衡服務器集群,存儲標注的多媒體文件;其次要有一套分布式內存對象緩存系統,作為代理服務器,用于在動態系統中減少數據庫負載,實現對多媒體文件的爬取索引;還可用軟件定義網絡(Software Defined Network,SDN),其核心技術OpenFlow通過將網絡設備控制面與數據面分離開來,從而實現了網絡流量的靈活控制;最后利用關鍵詞對圖片格式文件進行檢索,再對檢索結果進行直方圖的精準檢索。
本發明提供了一種基于軟件定義的網絡分布式圖片搜索引擎用戶界面、檢索排名、緩存爬取以及服務器集群框架,主干網絡可運行在OpenFlow上,并且通過網絡鏈接分布在全球各地的數據中心,提高廣域線路的利用率。
發明內容
本發明的目的在于提供一種基于軟件定義的網絡分布式圖片搜索引擎框架。本發明包括以下特征:
發明技術方案
1.一種基于軟件定義的網絡分布式圖片搜索引擎框架,其具體步驟如下:
1)構建一套分布式內存對象緩存系統,作為代理服務器,用于在動態系統中減少數據庫負載;
2)通過METAFILE的鏈路,實現對URL和直方圖的提取及索引并建立URL與直方圖映射;
3)構建高可用的負載均衡服務器集群,存儲已索引的URL和直方圖;
4)利用關鍵詞或上傳圖片格式文件含關鍵詞,對指向圖片格式文件地址的URL進行檢索;
5)對檢索結果再進行直方圖的精準檢索,通過直方圖與URL的映射,確定指向圖片格式文件地址的URL,獲得圖片格式文件。
2.基于權利要求1的框架,主干網絡可運行在OpenFlow上,并且通過網絡鏈接分布在全球各地的數據中心,提高廣域線路的利用率。
附圖說明
圖1是基于關鍵詞和直方圖的二級圖片搜索引擎框架圖;圖2是一致性散列算法的原理圖;圖3是高可用的LVS集群拓撲結構圖。
具體實施方式
這種基于軟件定義的網絡分布式圖片搜索引擎框架,包括如下步驟:
1)構建一套分布式內存對象緩存系統,作為代理服務器見附圖2,用于在動態系統中減少數據庫負載;
2)通過METAFILE的鏈路,實現對URL和直方圖的提取及索引并建立URL與直方圖映射;
3)構建高可用的負載均衡服務器集群見附圖3,存儲已索引的URL和直方圖;
4)利用關鍵詞或上傳圖片格式文件含關鍵詞,對指向圖片格式文件地址的URL進行檢索;
5)對檢索結果再進行直方圖的精準檢索,通過直方圖與URL的映射,確定指向圖片格式文件地址的URL,獲得圖片格式文件;
6)主干網絡可運行在OpenFlow上,并且通過網絡鏈接分布在全球各地的數據中心,提高廣域線路的利用率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于張軍,未經張軍許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610996857.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網站數據采集方法及裝置
- 下一篇:實現文書檔案價值自動鑒定的方法





