[發明專利]數據時效識別方法及裝置在審
| 申請號: | 202010942695.0 | 申請日: | 2020-09-09 |
| 公開(公告)號: | CN112199565A | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 周瑾萱 | 申請(專利權)人: | 北京小米松果電子有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/906;H04L29/08 |
| 代理公司: | 北京鉦霖知識產權代理有限公司 11722 | 代理人: | 李志新;劉亞平 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 時效 識別 方法 裝置 | ||
本公開是關于一種數據時效識別方法及裝置、內容推送方法及裝置、電子設備和計算機可讀存儲介質。其中數據時效識別方法包括:獲取待處理數據;根據待處理數據,利用網頁爬蟲獲取關聯數據;基于待處理數據與關聯數據的語義關系確定待處理數據的時效信息,其中,時效信息包括舊聞或非舊聞。通過網絡爬蟲可以借助互聯網信息,確定新聞內容的真實發布時間,通過確定出的真實發布時間進一步確定新聞內容的時效性,能夠甄別出新聞內容的發布時間是否被內容合作方修改,同時對入庫的新聞內容進行時效標注,便于后續推送時充分考慮時效問題。
技術領域
本公開涉及數據處理領域,尤其涉及數據時效識別方法及裝置、內容推送方法及裝置、電子設備和計算機可讀存儲介質。
背景技術
隨著信息技術和互聯網行業的快速發展,信息過載成為信息時代信息過于豐富的負面影響之一,用戶如何從指數增長的海量信息中快速、準確地找到自己所需要的信息內容成為一個難題,推薦系統的誕生極大地緩解了這個困難。個性化系統正是信息時代發展的產物,它是建立在海量數據基礎上的一種高級智能平臺,依托該平臺將海量信息內容和用戶連接起來,實現千人千面的個性化信息服務。近年來,隨著推薦技術研究和發展,其應用領域也越來越廣泛,已經滲透到我們生活中的方方面面,比如MIUI瀏覽器和今日頭條的新聞推薦、淘寶的商品推薦、網易云音樂的音樂推薦等。近年來深度學習的發展趨勢也非常迅猛,在互聯網、醫療、金融等各領域均取得了相當顯著的成果,在國內外引起了廣泛的關注。深度學習技術已經能夠很好地解決自然語言處理、計算機視覺等領域當中的絕大多數問題,并且取得了領先水平,它給各領域帶來了技術革新得益于大數據時代的高算力和強算法的強力支撐,推薦系統也借勢于深度學習取得了令人振奮的成果。
目前,常見的內容推送系統,例如MIUI瀏覽器等,其信息流推薦借助于個性化推薦系統將內容和用戶連接起來,用戶的一次請求,該系統便實時地從成千上百萬的內容當中篩選出幾十條優質且與該用戶匹配的內容推送給該用戶,推薦內容的形式主要包括圖文、視頻等,各類資訊類APP已經成為用戶獲取熱點內容的重要工具,深受大眾的喜愛。該信息流產品本身的特點是整合了眾多優質站點內容,用戶可輕松獲取價值閱讀,但在進行內容接入時會存在一個問題,內容合作方修改內容的發布日期為近期時間,而這類文章可能是描述很久之前發生的熱點事件,這類文章需要被提前過濾進而避免被推送給用戶。目前的推送系統無法準確判斷出推送內容的時效性,只能根據內容合作方推送的時間對內容進行篩選,常常會推送過期新聞,導致用戶體驗不佳。
發明內容
為克服相關技術中存在的問題,本公開提供一種數據時效識別方法及裝置、內容推送方法及裝置、電子設備和計算機可讀存儲介質。
根據本公開實施例的第一方面,提供一種數據時效識別方法,方法包括:獲取待處理數據;根據待處理數據,利用網頁爬蟲獲取關聯數據;基于待處理數據與關聯數據的語義關系確定待處理數據的時效信息,其中,時效信息包括舊聞或非舊聞。
在一實施例中,在根據待處理數據,利用網頁爬蟲獲取關聯數據之前,方法還包括:響應于待處理數據包含日期信息,根據日期信息判斷待處理數據的時效信息;響應于待處理數據不包含日期信息,執行根據待處理數據,利用網頁爬蟲獲取關聯數據的步驟。
在一實施例中,根據日期信息判斷待處理數據的時效信息,包括:確定入庫時間,入庫時間為獲取待處理數據的時間;響應于日期信息與入庫時間的相差時間大于第一時間閾值,確定待處理數據為舊聞或執行根據待處理數據,利用網頁爬蟲獲取關聯數據的步驟;響應于日期信息與入庫時間的相差時間小于或等于第一時間閾值,確定待處理數據為非舊聞。
在一實施例中,待處理數據包括第一標題信息;根據待處理數據,利用網頁爬蟲獲取關聯數據,包括:根據第一標題信息,通過搜索引擎,獲取搜索結果;基于搜索結果,得到作為關聯數據的第二標題信息及發布時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米松果電子有限公司,未經北京小米松果電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010942695.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





