[發明專利]一種基于大數據挖掘的互聯網資源質量評估方法及系統有效
| 申請號: | 201310467352.3 | 申請日: | 2013-10-09 |
| 公開(公告)號: | CN103530347A | 公開(公告)日: | 2014-01-22 |
| 發明(設計)人: | 劉巖松;徐信信 | 申請(專利權)人: | 北京東方網信科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京法思騰知識產權代理有限公司 11318 | 代理人: | 楊小蓉;楊青 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 挖掘 互聯網 資源 質量 評估 方法 系統 | ||
技術領域
本發明屬于互聯網質量分析領域,具體涉及一種基于大數據挖掘的互聯網資源質量評估方法及系統。
背景技術
目前,大多數移動運營商和ICP廠商為了解決因互聯網資源數量多且復雜而帶來的無法確定其數據質量情況的問題,大部分采用抽取少量樣本數據進行分析其質量情況的好壞,并且只能給出資源的質量的等級或專家預測的分數,不能給出一個合理的精確的分數,其分析結果并不能真正反應其資源的質量情況,也有一部分廠商采用基于大量進行的數據挖掘,但是其處理周期較長、效率低、成本高、復雜度高,如果過程中有失誤和紕漏將重新進行處理,大大增加了處理周期和成本。
發明內容
本發明的目的在于,解決因互聯網資源數據量多且復雜而帶來的無法確定其數據質量情況問題,從而提供一種基于大數據挖掘的互聯網資源質量評估方法。
為實現上述目的,本發明提供了一種基于大數據挖掘的互聯網資源質量評估方法,所述方法包含:
步驟101)采集互聯網數據,采用抽樣或隨機的方式得到海量樣本數據;
步驟102)通過數據挖掘去除樣本數據的噪聲點,使樣本數據具有平滑性;
步驟103)使用K-Means算法得出樣本數據的及格值和刻度,從而確定樣本數據的若干指標的分數,所述指標包含:DNS解析時間、TCP建鏈時間、第一字節時間和剩余時間;
步驟104)依據得到的及格值和刻度進行網絡資源質量評估;
其中,所述DNS解析時間、TCP建鏈時間、第一字節時間以及剩余時間均以秒為單位。
上述步驟102)進一步包含:
步驟102-1)依據互聯網資源質量評估相關指標項,選取所需的數據,并將選取的數據整合成用于數據挖掘的數據集,所述相關指標包含DNS解析時間、TCP建鏈時間、第一字節時間和剩余時間;
步驟102-2)基于數據集通過清理和歸約操作,生成供挖掘核心使用的目標數據。
上述步驟103)進一步包含:
步驟103-1)從n個數據對象中,任意選擇k個對象作為初始聚類中心;而對于所剩下其它數據對象,根據剩余數據對象與這些初始聚類中心的相似度,分別將剩余數據對象中的每一個數據對象分配至與數據對象最相似的某個初始聚類中心中;
步驟103-2)計算每個所獲新聚類的聚類中心,不斷重復這一過程直到標準測度函數開始收斂為止,得到及格值和刻度值,所述及格值為標準測度函數開始收斂為止所對應的聚類中心的重心點,所述刻度值為標準測度函數開始收斂為止所對應的聚類中心的半徑與某一設定值的商,所述設定值的取值范圍為:0-100;
步驟103-3)基于得到的及格值和刻度值得到各指標的分數,公式為:
各指標的分數=閾值-(指標項-及格值)/刻度;
其中,指標項的取值為對互聯網資源進行質量評估而采集的實際的各指標項的數值大小,該指標項的數值大小是由專門的互聯網資源質量探測系統采集獲得,所述指標項包含:DNS解析時間、TCP建鏈時間、第一字節時間和剩余字節時間;所述閾值的大小與計算指標分數時采用的分制相關,具體為該閾值為滿分的百分之六十,即當采用百分制時該處的閾值為60,當采用150分值時該處固定值為90。
上述技術方案中,數據對象與聚類中心的相似度通過數據對象與聚類中心的距離進行衡量;所述新聚類的聚類中心是指該聚類中心所包含的所有數據對象的均值。
上述標準測度函數采用均方差。
上述步驟104)進一步包含:
步驟104-1)依據互聯網資源質量評估的相關指標,確定互聯網資源的質量評估模型,并設定質量評估模型中各指標的權重值;
步驟104-2)基于得到的各指標的分數和質量評估模型,確定互聯網資源質量的評估結果。
上述步驟104-1)采用如下質量評估模型得出互聯網資源質量的評分:
最終得分=DNS解析分數S1*DNS解析權重W1+TCP建鏈分數S2*TCP建鏈權重W2+第一字節S3*第一字節權重W3+剩余字節分數S4*剩余字節權重W4;
其中,DNS解析權重S1、TCP建鏈權重W2、第一字節權重W3和剩余字節權重W4是設置的各指標的權重值,這些權重值均是個百分數,且四個權重值之和為百分之一百。
為了實現上述方法,本發明還提供了一種基于大數據挖掘的互聯網資源數據質量評估系統,其特征在于,所述系統包含:
獲取樣本數據的模塊,用于采集互聯網數據,得到樣本數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京東方網信科技股份有限公司,未經北京東方網信科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310467352.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種進油濾油器
- 下一篇:為基于散列的消重進行子塊分割的方法和系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





