[發明專利]一種基于財政大數據的分布式內容查重預警系統在審
| 申請號: | 201811562264.0 | 申請日: | 2018-12-20 |
| 公開(公告)號: | CN109636352A | 公開(公告)日: | 2019-04-16 |
| 發明(設計)人: | 李景龍 | 申請(專利權)人: | 湖南暉龍集團股份有限公司 |
| 主分類號: | G06Q10/10 | 分類號: | G06Q10/10;G06Q50/26 |
| 代理公司: | 長沙市和協專利代理事務所(普通合伙) 43115 | 代理人: | 熊曉妹 |
| 地址: | 410000 湖南省長沙市芙蓉區湘*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式內容 內容分析 大數據 項目庫 預警系統 申報 引擎 分布式計算技術 任務調度中心 數據管理平臺 數據管理系統 多服務器 快速計算 內容數據 項目申報 信息推送 預警模型 工商 財政 分析 統一 | ||
1.一種基于財政大數據的分布式內容查重預警系統,其特征在于,包括財政大數據庫、項目申報模塊、內容預警模塊、內容分析引擎、信息推送中心、任務調度中心,其中:
財政大數據庫,與工商數據庫及項目申報數據庫通訊連接,財政大數據庫對采集到的項目申報主體的工商數據與項目申報數據進行清洗、加工、分類形成工商主題庫與項目類主題庫;
項目申報模塊,用于用戶申報專項資金項目;
內容預警模塊,設定內容相似性預警的警戒線數值以及與之對應的預警級別;
內容分析引擎,引擎核心分為兩個部分,中文分詞算法與內容相似度算法;
信息推送中心,將預警的信息按管理的不同要求進行精準推送;
任務調度中心,負責調度相應的處理算法與功能執行任務。
2.一種基于財政大數據的分布式內容查重預警方法,其特征在于,包括以下步驟:
S1財政大數據庫建立,通過設定的算法模型,對采集的工商數據與項目申報數據進行清洗、加工、分類形成工商主題庫與項目類主題庫;
S2企業通過項目申報模塊填寫專項資金申報內容,向服務器提交專項資金項目申報請求,服務器端接收客戶端發送的項目申報請求,開始接收數據;
S3通過內容分析引擎,調用分詞算法功能接口對項目申報內容進行詞法分析,并將語句內容拆分成詞元,調用存儲層接口將分詞的詞元存儲財政大數據庫中,申報主體的項目申報內容會以文檔形式存儲在HDFS與MangoDB中;
S4通過任務調度中心,調用任務調度中心的任務接口,發布相似度計算任務與工商庫企業關系鏈路計算任務,調用分布式計算工具Spark接口,執行計算任務,利用多服務器算力進行快速計算,快速的計算出申報內容基于項目類主題庫與工商類主題庫的相似度查重分析;
S5將計算結果反饋給內容預警模型中心,模型判斷結果是否觸發預警閥值,超過預警值則開始步驟S6,無則結束整個項目內容預警計算流程;
S6通過預警模型中心向預警表中寫入預警日志,調用預警結果消息推送接口,消息推送主要通過郵件、站內信、短信、APP的方式進行,可以動態設定消息推送方式;
S7通過信息推送中心進行預警結果消息推送,打開消息通知,查看查重結果,重復的內容被標注出來進行顯示。
3.根據權利要求2所述的基于財政大數據的分布式內容查重預警方法,其特征在于,所述的S3中分詞算法基于正向匹配的分詞算法,具體方法為:采用的智能分詞模式smart模式,本系統分詞引擎分詞器則會根據內在方法輸出一個認為最合理的分詞結果,同時在本算法中建設性的開創詞元與詞元鏈概念,詞元鏈是分詞的一種結果根據前后順序組成一個鏈式結構,其本質是由交叉的詞元組成的有序集合,詞元對象中定義了詞元在整個鏈路中的位置,用于消除歧義。
4.根據權利要求2所述的基于財政大數據的分布式內容查重預警方法,其特征在于,所述的S4中相似度查重分析的方法采用SimHash相似度算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南暉龍集團股份有限公司,未經湖南暉龍集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811562264.0/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





