[發明專利]一種文件預測準確度的統計方法及裝置有效

申請號：	201010205803.2	申請日：	2010-06-22
公開（公告）號：	CN101882155A	公開（公告）日：	2010-11-10
發明（設計）人：	程旭;何俊;管雪濤	申請（專利權）人：	北京北大眾志微系統科技有限責任公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京安信方達知識產權代理有限公司 11262	代理人：	栗若木;王漪
地址：	100080 北京市海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種文件預測準確度統計方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及文件系統、文件預取算法以及文件訪問行為建模與定量分析方法。

背景技術

由于計算機存儲系統中，磁帶、磁盤等大數據量存儲設備由于自身機械特性的限制，數據傳輸速率的提升空間有限。因此高速訪問設備(如內存)與低速訪問設備(如磁盤、磁帶)訪問速度差距越來越大。

一般來說磁盤的訪問速度在很大的程度上限制了計算機整體性能的提高。但隨著緩存技術的出現，這一狀況得到改觀。當系統所需的數據從磁盤加載到內存中后，可以長期駐留在內存中。后續對相同數據的訪問可以不用再訪問磁盤而直接從內存中獲取。

但緩存技術是一種被動加速磁盤文件訪問速度的方法。無論是什么樣的緩存技術，第一次數據訪問總需要等待磁盤的操作完成才可以進行。如果訪問的文件比較多并且對每個文件訪問的時間比較少，那么緩存技術幾乎無法提高系統的數據訪問速度。

正因為如此，文件預取作為一種主動加速文件訪問速度的方法被廣泛使用。由于數據訪問的時間以及空間局部性，一個文件的后繼訪問文件在一定程度上具有可預測性。但預取本身具有一定的代價，文件預取會加重系統數據處理負載。如果預取失敗次數較多，會使嚴重影響系統性能。

在這種情況下，預取準確度成為是否實施預取行為的一個重要評價指標。只有當預取準確度達到一定閾值時，才認為預取行為的實施會對性能帶來提升。預取準確度的評估主要使用文件預測的最近歷史統計。

參見圖1，該圖示出了一種文件預讀統計周期的劃分，其中，一個文件預取算法會給出多個候選預測，對于一個候選預測P_AB來說，候選預測序列中P_AB的預測結果被劃分為若干個統計周期(statistical?cycles)，每一個統計周期中含有2N個P_AB的候選預測。每個統計周期進一步被劃分為預熱(warm-up)和使用(in-use)兩個階段(各占半個統計周期)：其中預熱階段只統計P_AB預測的結果，并不給出P_AB預測準確度；使用階段在繼續完成預熱階段中涉及到的統計工作外還會給出P_AB正確的概率。

申請人通過深入的研究，注意到按照圖1所示文件預讀統計周期的劃分及處理方式，在一個周期中的前半個周期將無法給出P_AB正確的概率統計值，而且，在后半個周期給出的P_AB正確的概率統計值是一個周期內的統計值，由于文件訪問具有時間局部性，因此長時間的統計信息并不能有效地反映和估計某一預測當前的精確度。當然，時間過短的統計信息也無法有效地反映一個預測的穩定精度。因此，如何設計一種有效的統計方法正是本發明所需要解決的問題。

發明內容

本發明要解決的技術問題是，提供一種文件預測準確度的統計方法及裝置，不但能夠將預測的偶然波動性降到最低，而且能夠確保性能評估輸出的連續性。

為了解決上述技術問題，本發明提出一種文件預測準確度的統計方法，包括：

配置一第一統計鏈和一第二統計鏈，所述第一統計鏈和所述第二統計鏈具有相同的統計周期，所述第一統計鏈和所述第二統計鏈的啟動時間相差半個所述統計周期；

控制所述第一統計鏈和所述第二統計鏈從各自的啟動時間開始，在所述統計周期的前半個周期內統計候選預測的結果；在后半個統計周期內繼續統計候選預測的結果，并根據該周期內當前統計到的候選預測的結果來計算并輸出候選預測的正確率。

進一步地，上述統計方法還可具有以下特點：

在所述統計周期中，前半個周期為預熱階段，后半個周期為使用階段；

所述第一統計鏈在預熱階段時，所述第二統計鏈在使用階段；或者所述第一統計鏈在使用階段時，所述第二統計鏈在預熱階段。

進一步地，上述統計方法還可具有以下特點：

所述候選預測是根據預設的文件預測算法計算出的關于一個文件的后繼訪問文件的預測。

為了解決上述技術問題，本發明還提出一種文件預測準確度的統計處理裝置，包括配置模塊和統計處理模塊，其中：

所述配置模塊，用以配置一第一統計鏈和一第二統計鏈，所述第一統計鏈和所述第二統計鏈具有相同的統計周期，所述第一統計鏈和所述第二統計鏈的啟動時間相差半個所述統計周期；