[發明專利]一種用于跨UGC網站平臺的帳戶關聯方法有效
| 申請號: | 201510032702.2 | 申請日: | 2015-01-22 |
| 公開(公告)號: | CN104573057B | 公開(公告)日: | 2017-10-27 |
| 發明(設計)人: | 羅緒成;陳偉;劉夢娟;劉嶠;藍天;劉亞軍;湯四見;趙鵬;李偉銘 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 ugc 網站 平臺 帳戶 關聯 方法 | ||
1.一種用于跨UGC網站平臺的帳戶關聯方法,其特征在于,包括下列步驟:
S1:根據用戶需求確定需要關聯的UGC網站,針對每個UGC網站,利用各網站的本地數據庫或者網絡爬蟲獲取所需要關聯的用戶帳戶數據集Gi,其中,Gi的下標“i”用于標識不同的UGC網站平臺所對應的用戶帳戶數據集;所述用戶帳戶數據集Gi中的每個用戶帳戶gik由該用戶生成的文本內容組成,其中,gik的下標“i”和“k”用于標識第i個用戶帳戶數據集Gi中第k個用戶帳戶;
S2:在獲取用戶帳戶數據集Gi后,需要對其中每個用戶帳戶gik中的文本內容進行預處理,在UGC網站中,用戶帳戶gik的文本內容由一系列短文本帖子組成,以短文本帖子為單位進行預處理,所做預處理具體為:刪除文本內容中非英文語言的內容;刪除各個UGC網站自動添加而非用戶生成的文本內容;刪除特殊的、使用頻率低的標識符和標點符號,即將用戶帳戶生成的文本內容中除了‘.’、‘,’、‘’’、‘?’、‘!’、‘;’、‘:’、‘(’、‘)’以外的標識符和標點符號刪除;若用戶帳戶gik的某條短文本帖子中所含有的英文字符數量小于預設閾值M,則將該短文本帖子刪除;若用戶帳戶gik含有短文本帖子數量小于預設閾值N,則從用戶帳戶數據集Gi中刪除該用戶帳戶,其中,M值和N值的選取依據UGC網站中用戶帳戶發布短文本帖子的數量和長度,針對現有的UGC網站,選取M=10,N=20;
S3:針對每個用戶帳戶gik,通過對預處理后的文本內容進行特征提取的方式建立用戶帳戶模型,用戶帳戶gik的模型由其性別特征,年齡特征,地理位置活動特征和寫作風格特征四個方面組成,則用戶賬戶模型表示為<性別,年齡,地理位置活動,寫作風格>,其中,性別的取值范圍為{男,女},年齡的取值范圍為{童年,少年,青年,中年,老年},地理位置活動為地點名詞集合,寫作風格由一系列特征向量樣本點組成;同時,用戶帳戶模型之間是相互獨立的,即某個用戶帳戶文本內容的改變對其他用戶帳戶模型沒有影響;各個特征之間是相互獨立的,計算相同特征之間的相似度;
S4:基于每個用戶帳戶的模型,采用逐層過濾的方式實現跨UGC網站平臺的帳戶關聯,針對用戶帳戶數據集Gi,從中抽取一個用戶帳戶gik,在用戶帳戶數據集Gj(i≠j)中,依次利用性別特征、年齡特征、地理位置活動特征和寫作風格特征,通過計算帳戶模型中特征相似度和使用分類器的方式,將與用戶帳戶gik不相關的用戶賬戶過濾掉,從而逐步縮小候選集,經過過濾篩選后的用戶帳戶集合即為在用戶賬戶數據集Gj中與用戶帳戶數據集Gi中的用戶帳戶gik相關聯的用戶帳戶集合;
S5:針對用戶帳戶數據集Gi中的用戶帳戶gik,在用戶帳戶數據集Gj中采用逐層過濾的方式獲得用戶帳戶集合后,將用戶帳戶集合中的用戶帳戶從用戶帳戶數據集Gj中刪除,將用戶帳戶gik從用戶帳戶數據集Gi中刪除,并將其加入用戶帳戶集合中,則用戶帳戶集合表示屬于同一實體用戶的跨UGC網站多賬戶,判斷用戶帳戶數據集Gi是否為空,如果非空,則表示還有未被關聯的用戶帳戶,進入步驟S4;如果為空,則表示用戶帳戶關聯已經完成,將含有用戶賬戶數量大于2的用戶帳戶集合輸出,如果用戶帳戶集合中僅含有一個用戶賬戶,則表示沒有與該用戶帳戶相關聯的跨UGC網站用戶帳戶,則不用輸出。
2.根據權利要求1所述的方法,其特征在于,所述步驟S3中的地理位置活動特征的提取方法:
本發明中,地理位置活動特征即為從用戶賬戶的文本內容中提取的地點名詞集合,采用自然語言處理中的實體識別技術從用戶帳戶預處理后的文本內容中提取地點名詞,然后將該地點名詞輸入到地址轉換接口中進行驗證,如果該地址轉換接口能返回地址的經緯度,則認為該地點名詞有效;針對每個用戶帳戶提取一個地點名詞集合作為該用戶帳戶的地理位置活動特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510032702.2/1.html,轉載請聲明來源鉆瓜專利網。





