[發明專利]動態計算新聞采集服務資源的方法、信息數據處理終端有效
| 申請號: | 201810402356.6 | 申請日: | 2018-04-28 |
| 公開(公告)號: | CN108595666B | 公開(公告)日: | 2022-03-29 |
| 發明(設計)人: | 詹詠松;程國艮 | 申請(專利權)人: | 中譯語通科技股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955 |
| 代理公司: | 北京萬貝專利代理事務所(特殊普通合伙) 11520 | 代理人: | 馬紅 |
| 地址: | 100040 北京市石*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 動態 計算 新聞 采集 服務 資源 方法 信息 數據處理 終端 | ||
1.一種動態計算新聞采集服務資源的方法,其特征在于,所述動態計算新聞采集服務資源的方法根據歷史數據作為參考依據,按時間排序,時間越近對采集權重越高,結合網站的重要性進行人工權重補充修正,以現有采集量與歷史數據進行對比,通過公式計算預測下一步所需采集資源,采集數量越多,需要的采集資源越大,動態調整所需資源;
所述動態計算新聞采集服務資源的方法包括以下步驟:
步驟一,計算歷史上每天單位時刻的采集數量h,作為橫向對比數值,以上一年的歷史量為準;
步驟二,根據網站的重要性,給不同的網站設定不同的權重w;
步驟三,默認網站的采集頻率,初始值,每個網站可以默認一個初始值,也可以人為干預調整,對實際采集數值有影響;
步驟四,通過系統動態計算網站采集數量c,作為參數提供;
步驟五,調節系統的敏感度p,遇到新聞突發,人為調節,增大系統的敏感性;
步驟六,調節系統的敏感度,如果不調節調節因子設為1;自動調節因子基于歷史信息分析而成,如果沒有歷史數據可以設為1,系統變量設為s;
所述步驟二進一步包括:重要的新聞門戶,政府宣傳網站級別高,地方網站/行業網站級別低,按照重要程度從1-5人工標注,級別5采集權重最高,級別1采集權重最低;權重變量為w,w1-w5取值范圍為0-2,如為1,則表示對系統不影響,大于1則提高網站的重要性,小于1則降低網站重要性;
所述步驟六進一步包括:
其中λ按斐波那列數列取值,斐波那契數列指的是數列1,1,2,3,5,8,13,21,34,55,89,144,233,377,610,987,1597,2584,4181,6765,10946,17711,28657,46368........這個數列從第3項開始,每一項都等于前兩項之和;k從歷史數據最早時刻取值,取到最新一年的數據:
S=s1*a/λn-1;
a為經驗值取值范圍為0-1,是調節系數,控制歷史數據影響力;
如果S=2則意味網站采集量異常率比較高,S取1;
如果1S2取值正常可以代入公式,網站資訊量在增長;
如果0S1網站資訊量在下滑,取值正常;
如果S0人為網站采集量時刻超范圍,S取1;
分析動態計算網站采集頻率:
根據F的值,調節是否提升采集頻率;根據服務器的配置不同,采集能力不同,評估出單位頻率下的采集量;低于某一個區間降低采集頻率,降低頻率不低于初始值,高于此區間則提升采集頻率。
2.一種如權利要求1所述動態計算新聞采集服務資源的方法的動態計算新聞采集服務資源的系統,其特征在于,所述動態計算新聞采集服務資源的系統包括:
歷史記錄模塊,每個網站歷史上這天的采集量,計算歷史上每天單位時刻的采集數量;
網站權重模塊,根據網站的重要性,給不同的網站設定不同的權重;
網站現有采集頻率模塊,默認網站的采集頻率,初始值;
網站單位時間采集數量模塊,通過系統動態計算網站采集數量,作為參數提供;
人為調節因子模塊,人為的調節系統的敏感度;
自動調節因子模塊,自動調節系統的敏感度。
3.一種實現權利要求1所述動態計算新聞采集服務資源的方法的信息數據處理終端,其特征在于,所述信息數據處理終端為論壇采集系統、社交媒體采集系統。
4.一種計算機可讀存儲介質,包括指令,當其在計算機上運行時,使得計算機執行如權利要求1所述的動態計算新聞采集服務資源的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技股份有限公司,未經中譯語通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810402356.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:網頁內容的顯示方法及裝置
- 下一篇:一種網絡異常數據的關聯性分析方法





