[發(fā)明專利]一種創(chuàng)建個人畫像的方法及裝置在審
| 申請?zhí)枺?/td> | 201710137303.1 | 申請日: | 2017-03-09 |
| 公開(公告)號: | CN108572966A | 公開(公告)日: | 2018-09-25 |
| 發(fā)明(設計)人: | 許青圓;王啟力;邰莉梅;黃昕庭;于瑩 | 申請(專利權)人: | 神州數(shù)碼系統(tǒng)集成服務有限公司;許青圓 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京輕創(chuàng)知識產(chǎn)權代理有限公司 11212 | 代理人: | 楊立;李瑩瑩 |
| 地址: | 100000 北京市海淀區(qū)西北旺東路*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 畫像 預處理 個人信息 匹配 個人信息數(shù)據(jù)庫 匹配成功 創(chuàng)建 分類 方位信息 分類存儲 數(shù)據(jù)創(chuàng)建 數(shù)據(jù)存儲 去除 存儲 刻畫 重復 | ||
1.一種創(chuàng)建個人畫像的方法,其特征在于,所述方法包括:
獲取與個人畫像相關的數(shù)據(jù);
對所述與個人畫像相關的數(shù)據(jù)進行預處理,獲取預處理后的數(shù)據(jù);
對所述預處理后的數(shù)據(jù)進行分類;
對所述分類后的數(shù)據(jù)與個人信息進行匹配,并將匹配成功后的數(shù)據(jù)存儲至與所述個人信息對應的個人信息數(shù)據(jù)庫;
利用所述個人信息數(shù)據(jù)庫中存儲的數(shù)據(jù),創(chuàng)建與所述個人對應的個人畫像。
2.根據(jù)權利要求1所述的方法,其特征在于,所述對所述與個人畫像相關的數(shù)據(jù)進行預處理,獲取預處理后的數(shù)據(jù),具體包括:
對所述與個人畫像相關的數(shù)據(jù)進行去重處理;
分別提取經(jīng)過去重處理后的與個人畫像相關的數(shù)據(jù)中每一條數(shù)據(jù)對應的至少一個關鍵詞;
分別將所述至少一個關鍵詞中的每一個關鍵詞與關鍵詞典中的關鍵詞進行比對,當確定第一數(shù)據(jù)的至少一個關鍵詞中所有關鍵詞均不屬于關鍵詞典中的關鍵詞時,去除所述第一數(shù)據(jù),其中所述第一數(shù)據(jù)為所述經(jīng)過去重處理后的與個人畫像相關的數(shù)據(jù)中的任一條數(shù)據(jù);
將去除所述第一數(shù)據(jù)后的與個人畫像相關的數(shù)據(jù)進行格式轉(zhuǎn)換。
3.根據(jù)權利要求1所述的方法,其特征在于,所述與個人畫像相關的數(shù)據(jù)包括:政務數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)。
4.根據(jù)權利要求3所述的方法,其特征在于,對所述預處理后的數(shù)據(jù)進行分類,具體包括:
將預處理后的政務數(shù)據(jù)分為:個稅信息類、個人處罰類、發(fā)明獎勵類、信貸信息類、信用情況類以及技能證書類;
將預處理后的互聯(lián)網(wǎng)數(shù)據(jù)分為:個人社交信息類、個人介紹信息類以及個人相關新聞類。
5.根據(jù)權利要求1-4任一項所述的法,其特征在于,對所述分類后的數(shù)據(jù)與個人信息進行匹配,并將匹配成功后的數(shù)據(jù)存儲至與所述個人信息對應的個人信息數(shù)據(jù)庫,具體包括:
當所述分類后的數(shù)據(jù)所屬數(shù)據(jù)源中包含國家統(tǒng)一身份代碼時,利用所述國家統(tǒng)一身份代碼與所述個人信息進行匹配;
當所述分類后的數(shù)據(jù)所屬數(shù)據(jù)源中不包含所述國家統(tǒng)一身份代碼時,采用模糊匹配算法,將所述分類后的數(shù)據(jù)與個人信息進行匹配,并將匹配成功后的數(shù)據(jù)存儲至與所述個人信息對應的個人信息數(shù)據(jù)庫。
6.一種創(chuàng)建個人畫像的裝置,其特征在于,所述裝置包括:
獲取單元,用于獲取與個人畫像相關的數(shù)據(jù);
處理單元,用于對所述與個人畫像相關的數(shù)據(jù)進行預處理,獲取預處理后的數(shù)據(jù);
分類單元,用于對所述預處理后的數(shù)據(jù)進行分類;
匹配單元,用于對所述分類后的數(shù)據(jù)與個人信息進行匹配,并將匹配成功后的數(shù)據(jù)存儲至與所述個人信息對應的個人信息數(shù)據(jù)庫;
創(chuàng)建單元,用于利用所述個人信息數(shù)據(jù)庫中存儲的數(shù)據(jù),創(chuàng)建與所述個人對應的個人畫像。
7.根據(jù)權利要求6所述的裝置,其特征在于,所述處理單元具體用于:
對所述與個人畫像相關的數(shù)據(jù)進行去重處理;
分別提取經(jīng)過去重處理后的與個人畫像相關的數(shù)據(jù)中每一條數(shù)據(jù)對應的至少一個關鍵詞;
分別將所述至少一個關鍵詞中的每一個關鍵詞與關鍵詞典中的關鍵詞進行比對,當確定第一數(shù)據(jù)的至少一個關鍵詞中所有關鍵詞均不屬于關鍵詞典中的關鍵詞時,去除所述第一數(shù)據(jù),其中所述第一數(shù)據(jù)為所述經(jīng)過去重處理后的與個人畫像相關的數(shù)據(jù)中的任一條數(shù)據(jù);
將去除所述第一數(shù)據(jù)后的與個人畫像相關的數(shù)據(jù)進行格式轉(zhuǎn)換。
8.根據(jù)權利要求6所述的裝置,其特征在于,所述與個人畫像相關的數(shù)據(jù)包括:政務數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)。
9.根據(jù)權利要求8所述的裝置,其特征在于,所述分類單元具體用于:
將預處理后的政務數(shù)據(jù)分為:個稅信息類、個人處罰類、發(fā)明獎勵類、信貸信息類、信用情況類以及技能證書類;
將預處理后的互聯(lián)網(wǎng)數(shù)據(jù)分為:個人社交信息類、個人介紹信息類以及個人相關新聞類。
10.根據(jù)權利要求6-9任一項所述的裝置,其特征在于,所述匹配單元具體用于:
當所述分類后的數(shù)據(jù)所屬數(shù)據(jù)源中包含國家統(tǒng)一身份代碼時,利用所述國家統(tǒng)一身份代碼與所述個人信息進行匹配;
當所述分類后的數(shù)據(jù)所屬數(shù)據(jù)源中不包含所述國家統(tǒng)一身份代碼時,采用模糊匹配算法,將所述分類后的數(shù)據(jù)與個人信息進行匹配,并將匹配成功后的數(shù)據(jù)存儲至與所述個人信息對應的個人信息數(shù)據(jù)庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于神州數(shù)碼系統(tǒng)集成服務有限公司;許青圓,未經(jīng)神州數(shù)碼系統(tǒng)集成服務有限公司;許青圓許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710137303.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





