[發明專利]基于預測的社交媒體網絡信息采集的系統和方法在審
| 申請號: | 201280058438.4 | 申請日: | 2012-10-10 |
| 公開(公告)號: | CN105009105A | 公開(公告)日: | 2015-10-28 |
| 發明(設計)人: | V·V·帕卡時;R·A·高時;L·T·崔 | 申請(專利權)人: | 蘋果公司 |
| 主分類號: | G06F15/18 | 分類號: | G06F15/18 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 陳新 |
| 地址: | 美國加*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 預測 社交 媒體 網絡 信息 采集 系統 方法 | ||
背景技術
Web信息采集是指以系統的、自動化的方式或有序的方式來瀏覽萬維網的基于軟件的技術。Web信息采集器主要用于創建所有訪問過的頁面的副本,以供以后由將用于收集已下載的頁面并對其編制索引的搜索引擎進行處理以提供快速的搜索。信息采集器還可以用于在Web站點上自動執行維護任務,諸如檢查鏈接或驗證HTML代碼。一般來講,Web信息采集器從要訪問的URL列表開始,這些URL被稱為種子。當信息采集器訪問這些URL時,其識別頁面中的所有超鏈接,并將這些超鏈接添加到要訪問的URL的列表,該列表被稱為信息采集前端。根據一組策略對前端中的URL進行遞歸式訪問。
諸如Facebook和Twitter的社交媒體網絡在最近幾年中作為基于Web的交流平臺已經經歷了指數級的增長。數以億計的人每天使用各種形式的社交媒體網絡進行交流并彼此保持聯絡。因此,從社交媒體網絡中的用戶所產生的活動數據是驚人的,而使用傳統Web信息采集技術定期地探索社交媒體網絡中每個用戶的活動數據變得過于昂貴,并且在所需的時間和資源方面也是不可行的。實際上,任何Web信息采集器都只能收集和下載給定時間段內社交媒體網絡中的部分用戶的活動,而社交媒體網絡中活動用戶的高速率活動要求在這些用戶的數據被更新或刪除之前對其進行頻繁收集。為了使所收集數據保持“新鮮”,越來越要求有一種專門針對社交媒體網絡定制的高效和及時的信息采集方法。
上述相關領域的實例及其相關的限制旨在進行說明,并非僅限于此。在閱讀說明書和研究附圖時,相關領域的其他限制將變得顯而易見。
附圖說明
圖1示出了支持基于預測的社交媒體網絡信息采集的系統圖的實例。
圖2示出了支持基于預測的社交媒體網絡信息采集過程的流程圖的實例。
具體實施方式
本發明方法以舉例的方式進行說明,而不僅限于各個附圖的圖形的方式,在附圖中類似的附圖標號表示類似的元件。應該指出的是,本公開中引用的“某個”、“一個”或“一些”實施例未必是相同的實施例,并且此類引用意指至少一個實施例。
所提議的新方法考慮了各種系統和方法,以支持基于社交網絡中每個用戶的預測的未來活動來有效地采集社交媒體網絡信息。首先,收集與用戶在社交網絡中的過往活動相關的數據,并建立用戶在社交網絡中的過往活動的隨時間推移的模式。基于所建立的用戶過往活動的模式,可以建立關于用戶在社交網絡中的對未來活動的預測。此類預測隨后可用于確定時間(何時)和頻率的收集計劃表,以收集用戶活動數據,從而用于未來的社交網絡信息采集。通過避免每次在某些用戶為不活動時針對每個用戶的活動進行耗費時間和資源的社交網絡信息采集,轉而繼續在每個用戶在他/她的預測活動時間內以及時的方式收集新鮮數據,此類基于預測的社交媒體網絡平衡社交網絡信息采集的效率和“新鮮度”。
如在下文所提到的,社交媒體網絡或僅社交網絡可以是任何可公開訪問的基于Web的平臺或社區,所述平臺或社區使得其用戶/成員能夠發帖、共享、交流以及與彼此進行交互。對于非限制性實例,此類社交媒體網絡可以是但不限于Facebook、Google+、Tweeter、Linkedln、博客、論壇或任何其他基于Web的社區。
如在下文所提及,社交媒體網絡中的用戶活動包括但不限于發微博、發帖、評論其他用戶的帖子、發表觀點(例如,贊)、供稿、聯系(例如,將其他用戶添加為好友)、引用、鏈接到其他網站或應用,或社交網絡上的任何其他活動。與創建時間可能不會始終與內容明確相關的典型Web內容相比,社交網絡中用戶活動的一個獨有特性是具有與每個活動相關聯的明確時間戳,這樣就可以建立社交網絡中用戶活動的隨時間推移的模式。
圖1示出了支持基于預測的社交媒體網絡信息采集的系統圖的實例。盡管這些圖示將組件示出為在功能上獨立,但此類示出僅用于說明性目的。顯而易見的是,該圖中所描繪的組件可以任意組合或劃分成獨立的軟件、固件和/或硬件組件。此外,也顯而易見的是,無論此類組件如何組合或劃分,其都可以在相同的主機或多個主機上執行,并且其中多個主機可以通過一個或多個網絡進行連接。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘋果公司,未經蘋果公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201280058438.4/2.html,轉載請聲明來源鉆瓜專利網。





