[發(fā)明專利]微博數(shù)據(jù)的傳播路徑確定方法和裝置有效
| 申請?zhí)枺?/td> | 201610162128.7 | 申請日: | 2016-03-21 |
| 公開(公告)號: | CN107222381B | 公開(公告)日: | 2020-03-06 |
| 發(fā)明(設計)人: | 王文文;楊建武;趙增峰;鄭孫雷 | 申請(專利權)人: | 北大方正集團有限公司;北京大學;北京北大方正電子有限公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;H04L12/751 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權代理有限公司 11205 | 代理人: | 陶敏;劉芳 |
| 地址: | 100871 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數(shù)據(jù) 傳播 路徑 確定 方法 裝置 | ||
1.一種微博數(shù)據(jù)的傳播路徑確定方法,其特征在于,包括:
采集微博數(shù)據(jù);所述微博數(shù)據(jù)包括:所述微博數(shù)據(jù)的內容信息、所述微博數(shù)據(jù)的屬性信息;其中,所述微博數(shù)據(jù)的屬性信息包括:所述微博數(shù)據(jù)的發(fā)布者標識、與所述微博數(shù)據(jù)的內容信息唯一對應的內容標識;
對采集得到的每一條所述微博數(shù)據(jù)進行解析,在每一條所述微博數(shù)據(jù)的內容信息中確定所述微博數(shù)據(jù)中是否包含有轉發(fā)的微博數(shù)據(jù);
獲取所述轉發(fā)的微博數(shù)據(jù)的原創(chuàng)者標識,獲取與所述轉發(fā)的微博數(shù)據(jù)的內容信息唯一對應的原創(chuàng)內容標識;在所述微博數(shù)據(jù)的內容信息中確定是否存在從所述發(fā)布者標識到所述原創(chuàng)者標識之間的轉發(fā)用戶標識,形成轉發(fā)關系鏈;
根據(jù)所述原創(chuàng)內容標識,在所有所述微博數(shù)據(jù)中,確定與所述原創(chuàng)內容標識對應的所有所述轉發(fā)關系鏈;
對每個所述原創(chuàng)內容標識對應的所有所述轉發(fā)關系鏈進行去重操作,得到每個所述原創(chuàng)內容標識各自對應的微博數(shù)據(jù)的傳播路徑;
其中,所述在所述微博數(shù)據(jù)的內容信息中確定是否存在從所述發(fā)布者標識到所述原創(chuàng)者標識之間的轉發(fā)用戶標識,形成轉發(fā)關系鏈,包括:
在所述微博數(shù)據(jù)的內容信息中確定是否存在從所述發(fā)布者標識到所述原創(chuàng)者標識之間的轉發(fā)用戶標識;
若存在,根據(jù)所述轉發(fā)用戶標識排列的先后順序形成轉發(fā)序列,將所述原創(chuàng)者標識設置在所述轉發(fā)序列的起始位置,將所述發(fā)布者標識設置在所述轉發(fā)序列的終止位置,形成所述轉發(fā)關系鏈;
若不存在,形成僅包含從所述原創(chuàng)者標識到所述發(fā)布者標識的所述轉發(fā)關系鏈。
2.根據(jù)權利要求1所述的方法,其特征在于,在所述微博數(shù)據(jù)的內容信息中確定是否存在從所述發(fā)布者標識到所述原創(chuàng)者標識之間的轉發(fā)用戶標識,包括:
在所述微博數(shù)據(jù)的內容信息中定位文本編輯字段;
在所述文本編輯字段中,確定是否存在轉發(fā)標志;
若存在,提取所述轉發(fā)標志所標識的所述轉發(fā)用戶標識。
3.根據(jù)權利要求1或2所述的方法,其特征在于,所述微博數(shù)據(jù)的屬性信息還包括:
所述微博數(shù)據(jù)的發(fā)布時間、所述微博數(shù)據(jù)的來源網(wǎng)站、所述微博數(shù)據(jù)的URL;
相應的,所述對采集得到的每一條所述微博數(shù)據(jù)進行解析之前,還包括:
根據(jù)所述微博數(shù)據(jù)的發(fā)布時間、所述微博數(shù)據(jù)的來源網(wǎng)站、所述微博數(shù)據(jù)的URL中的至少一項,對采集得到的所述微博數(shù)據(jù)進行分類及排序;
所述對采集得到的每一條所述微博數(shù)據(jù)進行解析,包括:
根據(jù)所述分類及排序后的先后順序,逐一對采集得到所述微博數(shù)據(jù)進行解析。
4.根據(jù)權利要求1所述的方法,其特征在于,所述對每個所述原創(chuàng)內容標識對應的所有所述轉發(fā)關系鏈進行去重操作,得到每個所述原創(chuàng)內容標識各自對應的微博數(shù)據(jù)的傳播路徑,包括:
將每個所述原創(chuàng)內容標識對應的所有所述轉發(fā)關系鏈兩兩比對,去除從所述轉發(fā)關系鏈中的首位開始,每個轉發(fā)用戶標識及每個轉發(fā)用戶標識的排列先后順序完全被其他轉發(fā)關系鏈包含的轉發(fā)關系鏈。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京大學;北京北大方正電子有限公司,未經(jīng)北大方正集團有限公司;北京大學;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610162128.7/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種信息發(fā)送方法和設備
- 下一篇:一種信息顯示的方法及裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





