[發明專利]基于社交內容的用戶分組方法在審
| 申請號: | 201510920679.0 | 申請日: | 2015-12-11 |
| 公開(公告)號: | CN105512301A | 公開(公告)日: | 2016-04-20 |
| 發明(設計)人: | 董政;吳文杰;陳露;李學生 | 申請(專利權)人: | 成都陌云科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/00 |
| 代理公司: | 北京天奇智新知識產權代理有限公司 11340 | 代理人: | 郭霞 |
| 地址: | 610041 四川省成都市高*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 社交 內容 用戶 分組 方法 | ||
1.一種基于社交內容的用戶分組方法,其特征在于,包括:
對社交網站服務器上的用戶信息和社交內容進行采集,基于所采集的內容 來識別特定用戶群體。
2.根據權利要求1所述的方法,其特征在于,所述對社交網站服務器上的 用戶信息和社交內容進行采集,進一步包括:
通過數據采集系統進行數據采集,其中采集的數據包括用戶信息,其包括 用戶ID、用戶名;文本數據,其包括會話ID、會話文本,以及關系數據,包括 關注列表與關注者列表;所述數據采集系統通過主控線程進行權限認證、程序 初始化、種子節點讀取、過濾、數據庫操作;所述數據獲取線程借助API開放 接口進行數據采集,采集過程包括接口請求、json數據解析、指針更新,最終返 回給主控線程總數據列表;采用二進制向量和一系列隨機映射函數完成去冗余 計算;為抓取種子ID列表、用戶ID列表、關系列表、會話ID分別添加去冗余 函數,種子列表,抓取用戶列表、社交列表均以其唯一標識ID進行,而關系的 格式將兩個用戶的ID組合到一起,并通過前者為被關注,后者為前者的關注者 的順序區分兩者的先后順序;提取種子ID時,多線程對數據庫的操作添加互斥 鎖;為每個線程分配抓取任務,為每個線程令牌資源庫進行區分式排列組合; 并為每個線程單獨設置一個斷點文件,記錄抓取的位置;將數據庫連接、關閉、 查詢、增加、刪除操作進行統一管理,抓取對象的ID首先由人工方式輸入至文 件,每次開始抓取任務之前都加載一遍優先級文件;在分任務處理中在抓取對 象上,為每個線程制定特定的抓取任務,從用戶信息獲取、文本獲取、關系獲 取中選取的一個或多個處理目標;通過控制線程的數量,或調整API請求后獲 取的數據量兩種方式之一來從調節采集速度;
利用數據結構對會話過程進行描述;將參與會話的用戶以關系連接在一 起,構建成基于單個事件的群體;最后在社交關系拓撲中采用節點衡量指標識 別強關系群體中的節點,最后以樹形的層級結構將該事件存儲至文件;其中所 述強關系群體具體定義為,如果已知群體α滿足:對于群體α內的每個用戶節點i, 均滿足i與群體α內節點構成的節點數量大于該節點與群體α外節點構成的節點 數量,則群體α被稱為強關系群體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都陌云科技有限公司,未經成都陌云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510920679.0/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





