[發明專利]數據糾錯方法、裝置及系統在審
| 申請號: | 202010531752.6 | 申請日: | 2020-06-11 |
| 公開(公告)號: | CN111680495A | 公開(公告)日: | 2020-09-18 |
| 發明(設計)人: | 毛長匯 | 申請(專利權)人: | 北京啟云數聯科技有限公司 |
| 主分類號: | G06F40/226 | 分類號: | G06F40/226;G06F40/279;G06N3/04;G06N3/08 |
| 代理公司: | 北京瀚仁知識產權代理事務所(普通合伙) 11482 | 代理人: | 屠曉旭;宋寶庫 |
| 地址: | 100086 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 糾錯 方法 裝置 系統 | ||
本發明涉及數據處理技術領域,具體提供了一種數據糾錯方法、裝置及系統,旨在解決如何準確且高效地對海量繁雜的互聯網數據進行數據糾錯的技術問題。為此目的,根據本發明一個實施例的數據糾錯方法是基于預設的Drools規則引擎和/或預設的LSTM神經網絡模型算法對海量繁雜的互聯網數據如從互聯網獲取到的目標對象的對象屬性信息進行高效且準確的數據糾錯。基于Drools規則引擎具備的易于調整以及易于管理等優點,本實施例可以靈活地設置糾錯規則,隨時調整糾錯規則中的數據,從而滿足不同用戶不同的數據糾錯需求。基于預設的LSTM神經網絡模型算法進行數據糾錯,不僅能夠模擬人工審核方式,還克服了人工審核方式存在的耗時長、效率低的缺陷。
技術領域
本發明涉及數據處理技術領域,具體涉及一種數據糾錯方法、裝置及系統。
背景技術
隨著互聯網技術的應用發展,很多用戶都選擇使用從互聯網上獲取目標對象如客戶的數據信息,然后對這些數據信息進行數據清洗(例如:去除數據信息中與數據內容無關的圖片、廣告等)以及存儲等處理。由于互聯網數據的數據來源較為雜亂,這些互聯網數據通常存在較多的數據錯誤、沖突、矛盾等問題,而這些問題又無法通過常規的數據清洗方法解決,只能采用人工審核的方式進行數據糾錯。但是,受限于效率低、耗時長等因素,這種人工審核的方式并不適用于對大數據量的互聯網數據進行數據糾錯。
相應地,本領域需要一種新的數據糾錯方案來解決上述問題。
發明內容
為了克服上述缺陷,提出了本發明,以提供解決或至少部分地解決如何準確且高效地對海量繁雜的互聯網數據進行數據糾錯的技術問題的數據糾錯方法、裝置及系統。
第一方面,提供一種數據糾錯方法,該方法包括:
獲取目標對象的對象屬性信息,所述對象屬性信息包括目標對象的對象特征和對象簡介;
調用預設的Drools規則引擎中的糾錯規則,根據所述糾錯規則對所述對象特征進行糾錯并輸出第一糾錯結果;
和/或,基于預設的LSTM神經網絡模型算法對所述目標對象的對象簡介進行文本分析,根據文本分析結果分別獲取所述對象簡介中與每個對象特征各自對應的簡介特征,根據每個對象特征以及每個對象特征各自對應的簡介特征的比較結果輸出第二糾錯結果;
其中,所述第一糾錯結果與所述第二糾錯結果均包括信息錯誤原因以及發生錯誤的對象屬性信息副本。
在上述數據糾錯方法的一個技術方案中,所述方法還包括:
獲取當前糾錯結果的反饋信息;
根據所述反饋信息啟動相應的數據處理端,以響應與所述反饋信息預先關聯的用戶處理請求;
其中,所述反饋信息包括同意修改錯誤信息和拒絕修改錯誤信息,與所述同意修改錯誤信息預先關聯的用戶處理請求包括修改目標對象的對象特征;若當前糾錯結果是第一糾錯結果,則與所述拒絕修改錯誤信息預先關聯的用戶處理請求包括修改所述預設的Drools規則引擎中的糾錯規則;若當前糾錯結果是第二糾錯結果,則與所述拒絕修改錯誤信息預先關聯的用戶處理請求包括不修改目標對象的對象特征。
在上述數據糾錯方法的一個技術方案中,“基于預設的LSTM神經網絡模型算法對所述目標對象的對象簡介進行文本分析,根據文本分析結果分別獲取所述對象簡介中與每個對象特征各自對應的簡介特征,以及根據每個對象特征以及每個對象特征各自對應的簡介特征的比較結果輸出第二糾錯結果”的步驟具體包括:
對所述目標對象的對象簡介進行分詞處理,根據分詞處理結果獲取所述對象簡介中每個詞語各自對應的詞向量,根據所述詞向量獲取所述對象簡介的對象簡介向量;
獲取當前待糾錯的對象特征的對象特征向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京啟云數聯科技有限公司,未經北京啟云數聯科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010531752.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





