[發明專利]一種文本類數據質量監控系統有效
| 申請號: | 201810999320.0 | 申請日: | 2018-08-30 |
| 公開(公告)號: | CN109344394B | 公開(公告)日: | 2023-06-06 |
| 發明(設計)人: | 覃劍釗;陳海雯;杜瑞罡;蔣榮;謝軍 | 申請(專利權)人: | 廣發證券股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06Q40/04;G06F40/247 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 顏希文;麥小嬋 |
| 地址: | 510663 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 數據 質量 監控 系統 | ||
本發明公開了一種文本類數據質量監控方法,其包括如下步驟:1)對待監控文本的讀取設置;2)讀取待監控文本,并約定標準格式;3)設置監控模型超參數;4)對監控規則進行自學習,和自動更新監控規則;5)人工對自生成的文本監控規則進行修改和調整;6)計算,并判斷該新增數據是否觸發數據異常報警;7)推送監控報警信息;8)接收反饋信息;其還公開了一種文本類數據質量監控系統;本發明提供的方法提高數據質量監控的質量、效率及覆蓋面;系統支持人工設定監控規則,還能利用機器學習技術從文本中提取特征,利用待監控歷史文本數據進行建模,人工可以接受自學習的默認規則也可以修改參數、添加手動規則,人機結合提供規則的可靠性。
技術領域
本發明涉及金融數據質量監控領域,尤其是涉及一種文本類數據質量監控方法與系統。
背景技術
文本數據是金融數據的重要組成部分,這些數據包括投資標的資訊、投資標的公告、產品說明、以及金融公司內部的文本交互等。這些文本數據是金融公司提供客戶服務的重要基礎,也是公司正常運行的重要基礎。如果文本數據的完整性、正確性出現問題,輕則導致客戶對公司的忠誠度下降,重則影響到客戶的投資決策。如果公司內部的文本數據出現錯誤,會影響公司內部的日常運營,及時對文本數據的異常進行報警有利于發現公司內部文本流轉過程中出現的合規風險。
本發明提出一種針對金融文本類數據質量監控方法及系統實現方案。該方法將人工設定的文本質量監控規則與機器自學習的文本質量監控規則相結合,以提高數據質量監控的質量、效率及覆蓋面。系統即支持人工設定監控規則,還能利用機器學習技術從文本中提取特征,利用待監控歷史文本數據進行建模,從而自動生成文本數據監控規則,人工可以接受自學習的默認規則也可以在自學習規則的基礎上修改參數、添加手動規則,人機結合提供規則的可靠性。
發明內容
針對現在技術存在的上述不足,本發明的目的在于提供一種文本類數據質量監控方法,其包括如下步驟:
(1)對待監控文本的讀取設置;
(2)根據步驟(1)的讀取配置,從數據庫中讀取待監控數據,并把數據標準化成約定的格式;
(3)對智能監控規則模型,或自定義的文本監控模型超參數進行設置;
(4)根據智能監控規則模型和步驟(3)設置的自定義模型以及步驟(2)提取的歷史文本特征對監控規則進行自學習,和根據待監控文本的更新特征對監控規則進行自動更新來適應文本特征的動態變化;
(5)人工對自生成的文本監控規則進行修改和調整,完善監控規則,或者由人工自主定義新的監控規則;
(6)根據步驟(4)自生成的數據監控規則綜合步驟(5)人工自定義規則對新增待監控數據進行計算,并判斷該新增數據是否觸發數據異常報警;
(7)將輸出的監控報警信息,包括觸發報警的數據基本信息及報警級別等,利用消息推送系統,通過微信、短信、應用App等渠道推送給客戶;
(8)接收運維人員對監控報警的反饋信息,并將該反饋信息反饋給數據監控規則更新模塊根據人工反饋對監控規則進行調整和優化。
進一步地,所述步驟(2)包括如下步驟:
(2.1)根據數據讀取配置從待監控數據池或數據API中讀取數據;
(2.2)對步驟(2.1)中提取的數據文本進行數據向量化處理;
(2.2.1)分詞與詞向量模型建立與更新;
(2.2.1.1)金融類文本詞匯收集與詞庫擴充;
(2.2.1.2)分詞與詞向量模型建立;
(2.2.1.3)定期更新詞庫與模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣發證券股份有限公司,未經廣發證券股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810999320.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





