[發明專利]基于多元異構數據的畫像構建方法在審
| 申請號: | 202010773966.4 | 申請日: | 2020-08-04 |
| 公開(公告)號: | CN111984640A | 公開(公告)日: | 2020-11-24 |
| 發明(設計)人: | 承孝敏;水新瑩;趙勇 | 申請(專利權)人: | 中國科學技術大學智慧城市研究院(蕪湖) |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2455;G06F16/28;G06Q50/26 |
| 代理公司: | 蕪湖安匯知識產權代理有限公司 34107 | 代理人: | 鐘雪 |
| 地址: | 241000 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多元 數據 畫像 構建 方法 | ||
1.基于多元異構數據的畫像構建方法,其特征在于,所述方法具體包括如下步驟:
S1、向政務資源目錄及社會資源目錄分別導入政務數據及社會數據,政務資源目錄及社會資源目錄中的數據對進行質量校驗,并標記該數據的可信權重;
S2、對質量校驗合格的元數據配置元數據的查詢使用關系;
S3、解析元數據的查詢使用關系,生成sql語句;
S4、取出可信權重高的元數據,基于所述取出的元數據及元數據查詢使用關系構建畫像。
2.如權利要求1所述多元異構數據的畫像構建方法,其特征在于,將質量校驗不合格的數據放入臟數據區內,并執行如下步驟:
S5、對臟數據區內的數據進行清洗;
S6、清洗完畢后,對清洗后的數據進行質量校驗,并更新該數據的可信權重,若質量校驗為合格的元數據,則執行步驟S2,若質量校驗為不合格的數據,則執行步驟S5;
臟數據區內的數據至少存在如下一個問題:缺失數據、錯誤數據及重復數據。
3.如權利要求1或2所述多元異構數據的畫像構建方法,其特征在于,數據的質量校驗方法具體如下:
基于數據質量規則模型進行數據的質量校驗,數據質量規則模型由若干數據質量校驗模板組成,數據質量校驗模板包括如下幾種:
空值校驗模板:校驗數據是否含有空值;
枚舉校驗模板:校驗數據的取值是否位于設定的范圍內;
最大值校驗、最小值校驗模板:校驗數據中的字段取值是否超過最大值、最小值范圍;
身份證校驗模板:校驗數據中的身份證字段是否滿足身份證號的設置規則;
日期格式校驗模板:校驗數據中的日期和時間表示是否符合公歷日期、時間以及時間間隔的表示法;
唯一性校驗模板:校驗某列數據是否唯一;
波動性檢核模板:波動性檢核是對表中的記錄數或字段數據值對比之前的業務周期數據值的波動趨勢是否在一定范圍內;
邏輯性檢核模板:校驗數據表是否與參照表中記載的字段格式或字段值一致。
4.如權利要2所述多元異構數據的畫像構建方法,其特征在于,數據清洗過程具體如下:
1)若數據存在缺失數據問題,從其他數據原查找屬性相同的屬性值,將平均屬性值、最大屬性值、最小屬性值或概率估計代替缺失的屬性值;
2)若數據存在錯誤數據問題,
對于全角字符、或數據前后有不可見字符的數據錯誤,使用已有算法進行識別,并替換成正確數據;
對于日期等格式不正確的或者是日期越界的數據錯誤,使用數據質量校驗模板進行識別,替換成正確的日期格式;
相同屬性的數據在不同數據表中的屬性值不相同,在更新時間較新的屬性值中取可信權重值較大的屬性值,賦予相對應數據;
3)若數據存在數據重復問題,通過判斷相同記錄間的屬性值是否相等來檢測記錄是否相等,將重復數據記錄的所有字段使用算法合并為一條記錄。
5.如權利要1所述多元異構數據的畫像構建方法,其特征在于,數據的可信權重的獲取方法具體如下:
數據的可信權重是基于該部門導入的歷史數據質量來生成的,采用歷史數據的正確率來評價歷史數據質量,歷史數據的正確率為正確數據量與總數據量的比值,正確的數據是指滿足數據質量規則模型校驗的元數據。
6.如權利要2所述多元異構數據的畫像構建方法,其特征在于,步驟S6中的數據可信權重更新方法具體如下:
定義數據質量規則模型中各數據質量校驗模板的權重系數;
獲取清洗后新增的質量校驗通過的數據質量校驗模板,并計算該質量校驗模板的權重系數之和;
上述權重系數之和與清洗前元數據的不可信權重的乘積即為清洗前元數據的可信權重增量;
數據質量規則模型所有數據質量校驗模板的權重系數之和為1,元數據的可信權重與不可信權重之和為1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學智慧城市研究院(蕪湖),未經中國科學技術大學智慧城市研究院(蕪湖)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010773966.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種汽車發蓋內板可視的美觀性校核方法
- 下一篇:一種船舶避碰環境建模方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





