[發(fā)明專利]基于大數據技術的行業(yè)對標實現方法在審
| 申請?zhí)枺?/td> | 201811563234.1 | 申請日: | 2018-12-20 |
| 公開(公告)號: | CN109670098A | 公開(公告)日: | 2019-04-23 |
| 發(fā)明(設計)人: | 黃紅亮;龔佳鑫;鐘虎 | 申請(專利權)人: | 安徽經邦軟件技術有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06Q10/06 |
| 代理公司: | 上海精晟知識產權代理有限公司 31253 | 代理人: | 馮子玲 |
| 地址: | 230000 安徽省合肥市包河工業(yè)區(qū)花園*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大數據 標桿 爬蟲技術 數據比較 數據獲取 數據展現 可視化 有效地 清晰 展示 分析 | ||
本發(fā)明公開了基于大數據技術的行業(yè)對標實現方法,包括一下步驟:1)對標數據獲??;2)對標數據比較;3)對標數據展現,通過大數據爬蟲技術能夠更加全面的分析業(yè)界的標桿,對比標桿找差距,通過echarts可視化圖表,更加清晰的展示出自身與業(yè)界最佳的差距,從而指明了工作的總體方向。還可以將企業(yè)自身最好水平作為內部標桿,通過與自身相比較,可以增強自信,不斷超越自我,從而能更有效地推動企業(yè)向業(yè)界最好水平靠齊。
技術領域:
本發(fā)明涉及大數據處理技術領域,具體涉及基于大數據技術的行業(yè)對標實現方法。
背景技術:
在大數據時代,數據挖掘是主要關鍵工作。大數據的挖掘是從海量、不完全的、有噪聲的、模糊的、隨機的大型數據庫中發(fā)現隱含在其中有價值的、潛在有用的信息和知識的過程,也是一種決策支持過程。其主要基于人工智能,機器學習,模式學習,統(tǒng)計學等。通過對大數據高度自動化地分析,做出歸納性的推理,從中挖掘出潛在的模式。
而所謂“對標”就是對比標桿找差距。推行對標管理,就是要把企業(yè)的目光緊緊盯住業(yè)界最好水平,明確自身與業(yè)界最佳的差距,從而指明了工作的總體方向。
傳統(tǒng)的行業(yè)對標指標體系缺乏針對性、對標指導性差、指標沒有進一步向下分解和細化,對指標的形成過程不能有效控制。
發(fā)明內容:
現有技術難以滿足人們的需要,為了解決上述存在的問題,本發(fā)明提出了基于大數據技術的行業(yè)對標實現方法。
為實現上述目的,本發(fā)明提供如下技術方案:基于大數據技術的行業(yè)對標實現方法,其特征在于:包括以下步驟:
(1)對標數據獲??;
(2)對標數據比較;
(3)對標數據展現。
優(yōu)選的,所述步驟1中的對標數據獲取包括以下步驟:
(1)通過聚集爬蟲技術,保留與主題有關的鏈接,建立索引,以便以后檢索與查詢;并將其放入等待抓取的URL隊列中;然后根據一定的搜索策略從隊列中選折下一步要抓取的網頁URL,直到達到系統(tǒng)想要的結果停止;另外,被抓取的數據將會進一步描述、分析、過濾最后進行存儲,從而獲取國家統(tǒng)計局的行業(yè)數據,包括行業(yè)指標數據,經濟運行數據等;
(2)獲取滬深兩市所有上市公司的財務數據及新三板公司的財務數據,對財務數據進行指標計算得出行業(yè)指標數據;
(3)獲取國務院國資委行業(yè)指標數據;
(4)獲取同行業(yè)的指標數據,一般企業(yè)自行提供。
進一步的,對于上述步驟1中的所述建立索引,包括用ClouderaSearch全文索引,實時查詢和針對CDH和你的企業(yè)級數據中心的擴展、靈活性的索引服務;基于MapReduce實現批量索引;通過GO-LIVE對動態(tài)索(Dynamic index)引進行更新;針對實時查詢,集成了Flume和Lily HBase indexer;無模式(Schema-less)和動態(tài)字段的支持,使schema管理更簡單;多文件(Multi-file)格式的支持和集成能力;通過HDFS,實現擴展性和容錯性索引存儲和訪問;與Apache Sentry的集成,實現了基于角色,細粒度的權限控制;通過使用IndexAliasing和Oozie workflows,使用數據遷移和服務更簡單。
進一步的,對于上述步驟1中的所述搜索策略包括以下步驟:
(1)根據所屬網站進行分類,對于待下載頁面較多的網站,優(yōu)先下載;
(2)然后對于下載頁面較多的網站按照樹的層次進行檢索,如果此層次沒有檢索完成,則不會進入下一個層次;
(3)只有等待上一個層次檢索完成才進行下一個層次的檢索;因為會檢索整張圖,可以盡可能的覆蓋更多的網頁;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽經邦軟件技術有限公司,未經安徽經邦軟件技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811563234.1/2.html,轉載請聲明來源鉆瓜專利網。





