[發明專利]一種大數據覆蓋率采集分析方法在審
| 申請號: | 201810444688.0 | 申請日: | 2018-05-10 |
| 公開(公告)號: | CN108664606A | 公開(公告)日: | 2018-10-16 |
| 發明(設計)人: | 高強 | 申請(專利權)人: | 北京鼎泰智源科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京中企鴻陽知識產權代理事務所(普通合伙) 11487 | 代理人: | 郭鴻雁 |
| 地址: | 100085 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據源 客戶定制 目標領域 搜索 領域數據 智能引擎 大數據 通用 覆蓋率分析 覆蓋率 采集 客戶需求 收集效率 數據量 兩級 分析 配置 | ||
1.一種大數據覆蓋率采集分析方法,其特征在于,包括如下步驟:
步驟S1,對目標領域數據源進行分析,根據分析結果劃分為常備通用領域數據或客戶定制領域數據;
步驟S2,在所述常備通用領域中,根據數據量的數據源、權威性、收集難易度和主站及子站的優先級,將數據源的收集優先級劃分為五級;
步驟S3,在所述客戶定制領域中,根據客戶需求高低、需求明確程度和數據量,將數據源的收集優先級劃分為兩級;
步驟S4,根據所述步驟S2和步驟S3劃分的優先級,采用智能引擎搜索的方式對數據源進行收集,其中,采用智能引擎搜索對數據源進行搜索,完成對數據源的初步收集,包括如下步驟:配置URL規則、名稱Name規則和主體body規則,然后開始采集任務;
步驟S5,計算常備通用領域數據的覆蓋率或者客戶定制領域數據的覆蓋率,其中,
常備通用領域數據覆蓋率總分值=國家級數據源分值*國家級權值+大省大市級數據源分值*大省大市級權值+全省大市級數據源*全省大市級權值+全部地市級數據源分值*全部地市級權值+全部區縣級數據源*全部區縣級權值;
客戶定制領域數據覆蓋率總分值=定向定制級數據源分值*定向定制級權值+非必需級數據源分值*非必需級權值。
2.如權利要求1所述的大數據覆蓋率采集分析方法,其特征在于,在所述步驟S2中,所述將數據源的收集優先級劃分為五級,由高到低依次為:
國家級:最高院、最高主管部門、最高機構發布的數據源;
大省大市級:十大省份/直轄市/副省級市的法院、主管部門、主管機構發布的數據源;
全省大市級:大省大市以外的全部省級和省會城市級的法院、主管部門、主管機構發布的數據源;
全部地市級:大市以外的全部地級市的法院、主管部門、主管機構發布的數據源;
全部區縣級:全部縣級市、縣、鎮級的法院,主管部門、主管機構發布的數據源。
3.如權利要求1所述的大數據覆蓋率采集分析方法,其特征在于,在所述步驟S3中,將數據源的收集優先級劃分為兩級,由高到低依次為:
定向定制級:客戶已明確提出的數據源;
非必需級:非客戶提出,存在的其他數據源。
4.如權利要求1所述的大數據覆蓋率采集分析方法,其特征在于,在所述步驟S4中,當監控出現新的數據源時,設置定期檢測任務,由系統自動進行檢測,自動補齊增量數據源,根據目標領域數據源整體變化的頻繁度,設置不同的檢測周期。
5.如權利要求4所述的大數據覆蓋率采集分析方法,其特征在于,所述檢測周期,包括:
1)數據源頻繁增加的領域設置為每周全網域搜索檢測一次;
2)數據源偶爾增加的領域設置為每月全網域搜索檢測一次。
6.如權利要求1所述的大數據覆蓋率采集分析方法,其特征在于,所述步驟S4,還包括:在智能引擎搜索的基礎上,采用人工作業方式對數據源進行補充收集,以及由人工方式對所述智能引擎搜索得到的數據判斷是否有效。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京鼎泰智源科技有限公司,未經北京鼎泰智源科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810444688.0/1.html,轉載請聲明來源鉆瓜專利網。





