[發(fā)明專利]虛擬人建立方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201410814330.4 | 申請(qǐng)日: | 2014-12-23 |
| 公開(公告)號(hào): | CN104504264A | 公開(公告)日: | 2015-04-08 |
| 發(fā)明(設(shè)計(jì))人: | 蔡立宇;賈西貝 | 申請(qǐng)(專利權(quán))人: | 深圳市華傲數(shù)據(jù)技術(shù)有限公司 |
| 主分類號(hào): | G06F19/00 | 分類號(hào): | G06F19/00 |
| 代理公司: | 深圳市華優(yōu)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44319 | 代理人: | 余薇 |
| 地址: | 518057 廣東省深圳市南山區(qū)高新區(qū)中*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 虛擬 建立 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種基于行為日志的虛擬人建立方法及裝置。
背景技術(shù)
當(dāng)前,即時(shí)通訊,電子郵件,網(wǎng)絡(luò)游戲,P2P軟件下載,網(wǎng)絡(luò)論壇,網(wǎng)絡(luò)招聘,電子商務(wù)交易,網(wǎng)絡(luò)預(yù)定機(jī)票酒店等各種網(wǎng)絡(luò)服務(wù)給網(wǎng)絡(luò)用戶的生活帶來極大的便利。各種網(wǎng)絡(luò)服務(wù)一般會(huì)給每個(gè)用戶分配一個(gè)帳號(hào),該帳號(hào)跟用戶的注冊(cè)信息相關(guān)聯(lián)并用以對(duì)各用戶進(jìn)行記錄和識(shí)別,比如網(wǎng)絡(luò)用戶的即時(shí)通信號(hào)碼(如QQ賬號(hào))或電子郵件地址,網(wǎng)絡(luò)游戲帳號(hào),論壇登陸帳號(hào),以及P2P軟件帳號(hào)等等。
每個(gè)網(wǎng)絡(luò)用戶都擁有類型多樣的賬號(hào),而大量的網(wǎng)絡(luò)用戶則帶來的巨量的賬號(hào)數(shù)據(jù),對(duì)相關(guān)部門來說,有效管理網(wǎng)絡(luò)用戶信息已經(jīng)成為艱巨的任務(wù)。為有效管理網(wǎng)絡(luò)用戶信息,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)帳號(hào)歸屬關(guān)系的分析,即哪些帳號(hào)屬于同一個(gè)人(虛擬人),現(xiàn)已成為亟需解決的問題。
現(xiàn)有技術(shù)在面對(duì)構(gòu)建虛擬人的問題時(shí),大多歸于屬性匹配方式。屬性匹配的方案大致如下:
A)指定網(wǎng)絡(luò)帳號(hào)屬性匹配的規(guī)則,在哪種情況下用哪些屬性進(jìn)行匹配,以及相應(yīng)的匹配成功判定方法。比如,當(dāng)匹配一個(gè)QQ帳號(hào)和一個(gè)淘寶帳號(hào)時(shí),如果兩帳號(hào)的“姓名”和“聯(lián)系方式”兩個(gè)字段的編輯距離(edit?distance)均小于3,則認(rèn)為這兩個(gè)帳號(hào)匹配成功。
B)根據(jù)屬性匹配的情況,構(gòu)建帳號(hào)之間屬于同一個(gè)人的程度(相似度)。并最終根據(jù)相似度分辨出哪些帳號(hào)屬于同一個(gè)人。比如,上例中,只要匹配成功則認(rèn)為屬于同一個(gè)人。
但是,實(shí)際生活中存在如下情況:
1.賬號(hào)數(shù)據(jù)中經(jīng)常出現(xiàn)屬性缺失的情況,例如賬號(hào)注冊(cè)時(shí)只填寫了部分屬性值。
2.不同類型的賬號(hào)數(shù)據(jù),共有的屬性少。而且共有的屬性中,不一定都能用于屬性匹配。
3.不同類型的賬號(hào)數(shù)據(jù),對(duì)同一語義的屬性不同,需要對(duì)齊,這進(jìn)一步增加了難度。比如在A類帳號(hào)中,姓名對(duì)應(yīng)的字段就是“姓名”這一個(gè)字段,但在B類帳號(hào)中,姓名實(shí)際上是用“姓”和“名”兩個(gè)字段來表示。
4.實(shí)際賬號(hào)數(shù)據(jù)中,屬性值的可信度并不是很高。例如,因?yàn)槿狈?shí)名認(rèn)證,可能存在身份證號(hào)不真實(shí)的情況。
5.需要進(jìn)行屬性級(jí)別的比較,復(fù)雜度較高。
這些情況使得屬性匹配的過程復(fù)雜、計(jì)算量大且實(shí)際結(jié)果不理想,尤其是針對(duì)大量數(shù)據(jù)處理時(shí),準(zhǔn)確度較低。
發(fā)明內(nèi)容
因此,本發(fā)明的目的在于提供一種基于行為日志的虛擬人建立方法,解決因帳號(hào)類型多樣等帶來的虛擬人構(gòu)建復(fù)雜、準(zhǔn)確度低的問題。
本發(fā)明的另一目的在于提供一種基于行為日志的虛擬人建立裝置,解決因帳號(hào)類型多樣等帶來的虛擬人構(gòu)建復(fù)雜、準(zhǔn)確度低的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種虛擬人建立方法,包括如下步驟:
從行為日志中提取賬號(hào)及與賬號(hào)對(duì)應(yīng)的登陸時(shí)間、登陸終端信息;
根據(jù)賬號(hào)之間協(xié)同出現(xiàn)的情況計(jì)算賬號(hào)之間的相似度,構(gòu)造以節(jié)點(diǎn)表征賬號(hào)的連通圖,并以節(jié)點(diǎn)之間的邊的長(zhǎng)度表征賬號(hào)之間的相似度,節(jié)點(diǎn)之間的邊越短,節(jié)點(diǎn)所表征的賬號(hào)之間相似度越高;
對(duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚類,根據(jù)聚類結(jié)果建立虛擬人。
其中,還引入賬號(hào)之間協(xié)同出現(xiàn)的情況以外的因素計(jì)算所述賬號(hào)之間的相似度。
其中,對(duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚類的過程包括如下步驟:
分別求出每個(gè)節(jié)點(diǎn)的本地密度Rho,Rho定義為連接本節(jié)點(diǎn)的長(zhǎng)度低于某個(gè)預(yù)定義值Dc的鄰邊的數(shù)目;
分別求出每個(gè)節(jié)點(diǎn)的離散度Delta,Delta定義為本節(jié)點(diǎn)所有連接更高Rho值鄰居節(jié)點(diǎn)的鄰邊中最短邊的邊長(zhǎng);若不存在這樣的鄰居節(jié)點(diǎn),則取本節(jié)點(diǎn)最長(zhǎng)鄰邊的邊長(zhǎng)。
將Rho值和Delta值分別高于預(yù)設(shè)閾值R_T和D_T的節(jié)點(diǎn)標(biāo)識(shí)為類的中心節(jié)點(diǎn);
將非中心節(jié)點(diǎn)歸類為到該非中心節(jié)點(diǎn)距離最短且Rho值高于該非中心節(jié)點(diǎn)的中心節(jié)點(diǎn)所屬的類;
相同類的各個(gè)節(jié)點(diǎn)一同構(gòu)成一個(gè)虛擬人,也就是屬于同一個(gè)虛擬人。
其中,采用K-Means方法或?qū)哟尉垲惙椒▽?duì)所述連通圖中的節(jié)點(diǎn)進(jìn)行聚類。
其中,還包括合并所有虛擬人及與虛擬人對(duì)應(yīng)的賬號(hào)成為虛擬人數(shù)據(jù)庫(kù)。
本發(fā)明還提供了一種虛擬人建立裝置,包括:
信息提取單元,用于從行為日志中提取賬號(hào)及與賬號(hào)對(duì)應(yīng)的登陸時(shí)間、登陸終端信息;
連通圖構(gòu)造單元,用于根據(jù)賬號(hào)之間協(xié)同出現(xiàn)的情況計(jì)算賬號(hào)之間的相似度,構(gòu)造以節(jié)點(diǎn)表征賬號(hào)的連通圖,并以節(jié)點(diǎn)之間的邊的長(zhǎng)度表征賬號(hào)之間的相似度,節(jié)點(diǎn)之間的邊越短,節(jié)點(diǎn)所表征的賬號(hào)之間相似度越高;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市華傲數(shù)據(jù)技術(shù)有限公司,未經(jīng)深圳市華傲數(shù)據(jù)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410814330.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計(jì)算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計(jì)算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動(dòng)態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 確定吸收制品功效
- 一種虛擬機(jī)的安全訪問方法及虛擬機(jī)系統(tǒng)
- 一種虛擬桌面的解鎖方法及裝置
- 一種實(shí)時(shí)處理虛擬交換機(jī)網(wǎng)絡(luò)流量的虛擬化平臺(tái)
- 虛擬智能家居實(shí)訓(xùn)系統(tǒng)及其虛擬實(shí)訓(xùn)方法
- 虛擬機(jī)的磁盤資源的管理方法和裝置
- 一種基于KVM的虛擬網(wǎng)卡管理方法
- 虛擬資源數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 基于虛擬環(huán)境的道具使用方法、裝置、設(shè)備及介質(zhì)
- 虛擬道具的獲取方法、裝置、設(shè)備及介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





