[發明專利]鉆井式數據采樣方法及其在大數據價值風險評估中的應用有效
| 申請號: | 202110813235.2 | 申請日: | 2021-07-19 |
| 公開(公告)號: | CN113506007B | 公開(公告)日: | 2022-05-20 |
| 發明(設計)人: | 章昭輝;徐付娟;劉科;楊如萍 | 申請(專利權)人: | 上海抉真網絡科技有限責任公司 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q50/26 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 翁若瑩;柏子雵 |
| 地址: | 201620 上海市松*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 鉆井 數據 采樣 方法 及其 價值 風險 評估 中的 應用 | ||
本發明涉及一種鉆井式數據采樣方法。本發明的另一個技術方案是提供了一種上述的鉆井式數據采樣方法在大數據價值風險評估中的應用方法。為解決大數據價值安全評估問題,本發明首先提供了一種“鉆井式”的流式大數據的適量高效采集方法。該方法對不斷產生的流數據進行“鉆井”操作,建立流數據大小相對確定機制,并動態調整井間距,再分別對井內數據進行分析采樣,觀察其是否含有足夠信息。這樣能夠很好的避免在整個流數據集上進行操作,導致過度的存取計算問題。其次,本發明將“鉆井式”的流式大數據的適量高效采集方法應用在有效的數據價值安全評估中,對被采集的數據集進行價值評估。
技術領域
本發明涉及一種鉆井式數據采樣方法以及該數據采樣方法在大數據價值風險評估中的應用。
背景技術
大數據已經被認為是一種數據資產。作為數據資產的大數據價值主要體現在數據本身所含的價值以及開發利用大數據的代價。從數據價值風險安全角度看,其中一種重要的表現是,大數據被未授權采集的一定量的數據是否體現了整體數據集的價值大小。如果采集的數據能夠基本反映整體數據的特性,則意味著數據存在數據價值泄露的不安全。然而,現有的大數據價值安全還缺乏有效評估方法。特別地,對于流式大數據,由于數據量大、變化快等特性,在實際應用場景下,整體的數據價值評估難以采用全量的傳統法。因此,要實現大數據價值安全的評估,必須要解決大數據整體價值的首要問題:能高效準確地體現整體價值的適量大數據采樣問題。
發明內容
本發明的目的是:高效準確地體現整體價值的適量大數據采樣。
為了達到上述目的,本發明的技術方案是提供了一種鉆井式數據采樣方法,其特征在于,包括以下步驟:
步驟1、井內波峰波谷采樣:
針對流數據大小的不確定性,以井的寬度限定井內數據量的大小,使得流數據的大小相對確定,將井的寬度記為W,從異常值攜帶信息量較多的角度出發,采集每個井的局部異常值,每個井的局部異常值為波峰波谷,具體包括以下步驟:
S101、計算均值貢獻率MCR:
計算井內流數據值的均值,將井內每個流數據值對均值的影響定義為均值貢獻率MCR,則井內第i個流數據值valuei對均值貢獻程度MCRi的計算公式為:
S102、設置均值貢獻率MCR的閾值上限θupper和閾值下限θlower:
S103:計算井內疑似波峰波谷:
當井內流數據值的均值貢獻率MCRi≥θupper,則將該流數據值標記為疑似波峰;當井內流數據值的均值貢獻率MCRi≤θlower,則將該流數據值標記為疑似波谷,將疑似波峰及疑似波谷的集合記為PT,則PT表示為:
{(i,MCRi)|MCRi≥θupperor MCRi≤θ1ower,i∈[1,W]and MCRi∈MCR}
S104:計算井內真實波峰波谷:
遵循波峰波谷交替出現的原則,當集合PT中連續出現波峰或波谷,則比較連續波峰或波谷的大小,若連續出現波峰,則保留其中最大的流數據值作為真實波峰,若連續出現波谷,則保留其中最小的流數據值作為真實波谷,進而得到真實的波峰波谷集合;
步驟2、井間距動態調整:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海抉真網絡科技有限責任公司,未經上海抉真網絡科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110813235.2/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





