[發明專利]一種應用于搜索系統的數據淘汰方法和裝置在審
| 申請號: | 201910247135.0 | 申請日: | 2019-03-29 |
| 公開(公告)號: | CN109918575A | 公開(公告)日: | 2019-06-21 |
| 發明(設計)人: | 劉一平 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 淘汰 業務數據 方法和裝置 搜索系統 參考數據 常駐系統 系統負載 系統空間 重新加載 傳統的 冷數據 熱數據 命中率 延遲 應用 搜索 訪問 記錄 | ||
本說明書提供一種應用于搜索系統的數據淘汰方法和裝置,先記錄每條業務數據的被訪問情況,并基于被訪問情況計算業務數據的活躍值。在進行數據淘汰時,同時參考數據活躍值和數據存在時間兩個數據。相比于傳統的按時間直接淘汰舊業務數據的策略,本方案可以使冷數據(不關心數據)盡早淘汰,熱數據常駐系統,在系統空間有限的條件下,提高搜索命中率,避免頻繁重新加載已淘汰數據造成的系統負載和延遲。
技術領域
本說明書涉及互聯網領域,尤其涉及一種應用于搜索系統的數據淘汰方法和裝置。
背景技術
Es(ElasticSearch)是一種基于Lucene的搜索服務器,它提供了具有分布式多用戶檢索能力的搜索引擎。Es集群中會儲存一定量的業務數據以備訪問,舉例說明:在反洗錢領域,用戶業務數據以數據索引的形式存放在Es集群中,以備搜索使用。
考慮到業務數據量和Es集群容量的限制,一般會定期淘汰Es集群中儲存的舊數據,以便存儲數據的新舊交替。傳統的數據淘汰方案中,是按照時間維度定時淘汰掉過期的數據。例如,Es集群只允許存放一個月的業務數據,那么按照新老交替的淘汰算法,在本月1號時,則需要淘汰掉上個月1號的業務數據,以保證Es集群的容量健康和平衡。
傳統方案根據日期維度,將日期較前的數據進行淘汰和刪除。在淘汰后,如果需要訪問已被淘汰的業務數據,需要將數據從線下重新加載同步。傳統淘汰方案的維度過于單一,沒有結合實際的業務需求進行數據淘汰,在訪問跨時間維度(已進入淘汰區間)和多主體客戶連續訪問時,很容易出現命中失敗。必須重新加載已淘汰數據,增加了系統負載和延遲。
發明內容
針對上述技術問題,本說明書實施例提供一種應用于搜索系統的數據淘汰方法和裝置,技術方案如下:
根據本說明書實施例的第一方面,提供一種應用于搜索系統的數據淘汰方法,該方法包括:
獲取業務數據的被訪問信息,所述被訪問信息至少包括業務數據的被訪問時間信息,根據所述被訪問信息計算并調整對應業務數據的活躍值;
提取業務數據的時間字段,根據所述時間字段確定業務數據在搜索系統中的存在時長;
利用預設的數據熱度算法計算每條業務數據的熱度分值,所述熱度分值與業務數據的存在時長成反比,且與所述業務數據的活躍值成正比;
根據本說明書實施例的第二方面,提供一種應用于搜索系統的數據淘汰裝置,該裝置包括:
訪問監控模塊:用于獲取業務數據的被訪問信息,所述被訪問信息至少包括業務數據的被訪問時間信息,根據所述被訪問信息計算并調整對應業務數據的活躍值;
時長確定模塊:用于提取業務數據的時間字段,根據所述時間字段確定業務數據在搜索系統中的存在時長;
熱度計算模塊:用于利用預設的數據熱度算法計算每條業務數據的熱度分值,所述熱度分值與業務數據的存在時長成反比,且與所述業務數據的活躍值成正比;
數據淘汰模塊:用于將計算出業務數據的熱度分值與預定義的淘汰閾值進行對比,將熱度分值低于淘汰閾值的業務數據從搜索系統中刪除。
根據本說明書實施例的第三方面,提供一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其中,所述處理器執行所述程序時實現一種應用于搜索系統的數據淘汰方法,該方法包括:
獲取業務數據的被訪問信息,所述被訪問信息至少包括業務數據的被訪問時間信息,根據所述被訪問信息計算并調整對應業務數據的活躍值;
提取業務數據的時間字段,根據所述時間字段確定業務數據在搜索系統中的存在時長;
利用預設的數據熱度算法計算每條業務數據的熱度分值,所述熱度分值與業務數據的存在時長成反比,且與所述業務數據的活躍值成正比;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910247135.0/2.html,轉載請聲明來源鉆瓜專利網。





