[發明專利]一種基于財政大數據的分布式內容查重預警系統在審
| 申請號: | 201811562264.0 | 申請日: | 2018-12-20 |
| 公開(公告)號: | CN109636352A | 公開(公告)日: | 2019-04-16 |
| 發明(設計)人: | 李景龍 | 申請(專利權)人: | 湖南暉龍集團股份有限公司 |
| 主分類號: | G06Q10/10 | 分類號: | G06Q10/10;G06Q50/26 |
| 代理公司: | 長沙市和協專利代理事務所(普通合伙) 43115 | 代理人: | 熊曉妹 |
| 地址: | 410000 湖南省長沙市芙蓉區湘*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式內容 內容分析 大數據 項目庫 預警系統 申報 引擎 分布式計算技術 任務調度中心 數據管理平臺 數據管理系統 多服務器 快速計算 內容數據 項目申報 信息推送 預警模型 工商 財政 分析 統一 | ||
本發明公開了一種基于財政大數據的分布式內容查重預警系統及方法,包括項目申報系統、內容預警模型中心、內容分析引擎、大數據管理平臺、信息推送中心、任務調度中心。本發明優點在于基于大數據管理系統,建立統一的申報項目庫、工商庫;基于分布式計算技術的內容分析引擎,支持基于項目庫與工商庫的大規模申報內容數據的快速查重分析,可以利用多服務器算力進行快速計算,快速的計算出申報內容的相似值,系統實用性強、查重效率高、結果安全可靠。
技術領域
本發明具體涉及一種基于財政大數據的分布式內容查重預警系統。
背景技術
隨著信息化產業的不斷發展,財政部門建設了一批專項資金信息管理應用系統,實現了紙質化辦公向網上辦公的跨越式轉變,提升了辦公效率,但隨著政府對企業的扶持力度不斷加大,財政部門需要處理大量的企業扶持專項資金申報,審核大量的申報內容,為了應對該問題,系統需要更加的智能化,可對申報內容進行查重分析,根據分析結果向管理人員預警;由于政府信息化建設缺少統一的規劃,多采用獨立、分散建設的方式,信息資源不能有效的共享利用,難以通過簡單的升級來解決數據整合的問題。
隨著大數據技術與分布式計算技術的發展,建立統一的項目申報大數據管理平臺,成為解決專項資金申報項目內容多有雷同的解決方案,現有的財政信息預警平臺產品能夠完成對申報項目內容查重預警,通過設定內容相似度預警閥值決定是否發送預警通知,主要存在以下問題:1)面對大規模的數據內容,單機服務器計算算力有限,最簡單的長度只有20個字符的兩個數據循環100w次計算這兩個數據的相似度耗時>=4000ms,假設我們一天需要比較100w次,光是比較100w次的數據是否重復就需要4s,就算4s一個文檔,單線程一分鐘才處理15個文檔,一個小時才900個,如果一個申報內容文本文檔可能達到幾百兆大小,效率還會有下降;2)數據存儲相對分散,數據沒有集中存儲在統一的數據平臺、信息資源不能有效的共享利用,導致申報內容數據需要各級財政專項平臺進行重復的內容查重運算;3)未能建立統一的工商大數據庫,由于申報單位法人或股東名下存在多家企業,而多家企業可能都參與申報同一項目,因此可能產生多頭申報問題,不能完全有效的規避內容重復申報問題。但是由于分析精確度低、系統架構存儲在單一節點、不支持分布式計算、海量的申報內容數據,計算效率過低問題突出,不能及時的將結果反饋給用戶,同時容易造成問題審批。
因此有必要提供一種基于財政大數據的分布式內容查重預警系統及方法來解決上述問題。
發明內容
本發明的目的在于提供一種效率較高且安全可靠性高的基于財政大數據的分布式內容查重預警系統,一種基于文檔文字圖像識別、中文分詞算法、財政大數據實現的分布式計算內容相似度與分析相似內容的高效預警信息平臺。
本發明目的之一提供基于財政大數據的分布式內容查重預警系統,包括項目申報模塊、內容預警模塊、內容分析引擎、財政大數據庫、信息推送中心、任務調度中心,其中:
項目申報模塊,用于用戶申報專項資金項目;
內容預警模塊,設定內容相似性預警的警戒線數值以及與之對應的預警級別。
內容分析引擎,引擎核心分為兩個部分,中文分詞算法與內容相似度算法,中文分詞算法負責將申報的整個文檔內容的語句拆分成詞語(即詞元,指組成一句話的詞語),相似度算法負責計算兩篇對比的目標申報文檔的相似值,相似度算法為Simhash算法。
財政大數據庫,與工商數據庫及項目申報數據庫通訊連接,財政大數據庫對采集到的項目申報主體的工商數據與項目申報數據進行清洗、加工、分類形成工商主題庫與項目類主題庫。
信息推送中心,將預警的信息按管理的不同要求進行精準推送。
任務調度中心,負責調度相應的處理算法與功能執行任務。
本發明的另一個目的是采用上述系統提供一種基于財政大數據的分布式內容查重預警方法,包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南暉龍集團股份有限公司,未經湖南暉龍集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811562264.0/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





