[發明專利]熱點新聞的檢測方法、裝置及電子設備在審
| 申請號: | 201711271015.1 | 申請日: | 2017-12-05 |
| 公開(公告)號: | CN107944001A | 公開(公告)日: | 2018-04-20 |
| 發明(設計)人: | 鄭強 | 申請(專利權)人: | 北京金山安全軟件有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙)11413 | 代理人: | 馬敬,項京 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 熱點新聞 檢測 方法 裝置 電子設備 | ||
技術領域
本發明涉及計算機應用技術領域,特別是涉及一種熱點新聞的檢測方法、裝置及電子設備。
背景技術
隨著移動互聯網飛速發展,用戶獲取新聞的途徑也從傳統紙媒與門戶網站,過渡到以各種移動新聞聚合的應用為主,這樣的應用提供的內容具有及時、全面且深度契合用戶興趣等特點,其中熱點新聞類別是其重要的組成部分,熱點新聞類別主要為廣大用戶提供最新的熱門、重大新聞等,并且熱點新聞類別在提高用戶留存度、活躍度、參與度起到非常重要的作用,因此對熱點新聞檢測的準確性與時效性也就成了重中之重。
目前現有的熱點新聞的檢測方法主要為如下兩種方式:
方式一,基于人工監控的方式來檢測熱點新聞。該方式主要是從業人員主觀的向用戶推送新聞。然而,該方式需要大量人工,成本較高,并且會因為不專業的從業人員造成熱點新聞的遲發、錯誤、遺漏等問題,導致檢測出的熱點新聞的準確率較低。
方式二,基于用戶的點擊反饋方式來自動對熱點新聞進行檢測。該方式主要是依據在一段時間內各新聞的點擊率是否有較快速的上升來檢測該段時間內的熱點新聞。該方式相較于方式一具有成本低廉的優勢。然而,該方式常常會傾向于將一些標題黨、吸引點擊的一些內容識別為熱點新聞內容,這一類內容通常都會有大量的用戶點擊量,但其不是真正的熱點新聞,導致檢測出的熱點新聞的準確率較低。另外,該方式在實施過程中需要搜集應用推送給用戶的多個新聞,并獲取這些新聞在一段時間內的點擊量,最后對點擊量進行統計找出熱點新聞,耗時較長,導致這樣的熱點新聞時效性較低。
發明內容
本發明實施例的目的在于提供一種熱點新聞的檢測方法、裝置及電子設備,以提高熱點新聞檢測的準確性與時效性。具體技術方案如下:
第一方面,提供了一種熱點新聞的檢測方法,該方法可以包括:
確定多個待檢測新聞組中每個待檢測新聞組的第一發布權重和第二發布權重,每個待檢測新聞組包括記載同一事件的新聞,第一發布權重表征待檢測新聞組中新聞的發布者特征,第二發布權重表征待檢測新聞組中新聞的發布時間特征;
針對每個待檢測新聞組,基于該待檢測新聞組的第一發布權重與第二發布權重,確定該待檢測新聞組的熱度值;
基于多個待檢測新聞組的熱度值,從多個待檢測新聞組中,選取出熱點新聞組,熱度值越大越被優先選取;
將選取的熱點新聞組中的新聞確定為熱點新聞。
在一個可選的示例中,確定多個待檢測新聞組中每個待檢測新聞組的第一發布權重和第二發布權重之前,還包括:基于獲取的多條待分組新聞中每條待分組新聞的多個關鍵詞的權重序列,采用相似度運算,對多條待分組新聞進行分組,得到多個待檢測新聞組。
在一個可選的示例中,基于獲取的多條待分組新聞中每條待分組新聞的多個關鍵詞的權重序列,采用相似度運算,對多條待分組新聞進行分組,得到多個待檢測新聞組,包括:
步驟A:獲取多條待分組新聞;
步驟B:提取多條待分組新聞中第一待分組新聞的多個關鍵詞和多條待分組新聞中第二待分組新聞的多個關鍵詞;
步驟C:獲取降序排列的第一待分組新聞的多個關鍵詞的權重序列和第二待分組新聞的多個關鍵詞的權重序列;
步驟D:從排序后的第一待分組新聞的權重序列和排序后的第二待分組新聞的權重序列中,分別選取前預設數量個權重組成的第一權重序列和第二權重序列;
步驟E:將第一權重序列和第二權重序列,采用相似度運算,得到第一權重序列和第二權重序列的相似值;
步驟F:當相似值不大于預設相似閾值時,創建第一待檢測新聞組和第二待檢測新聞組,第一待檢測新聞組包括第一待分組新聞,第二待檢測新聞組包括第二待分組新聞,第一待檢測新聞組和第二待檢測新聞組為當前待檢測新聞組;
步驟G:當相似值大于預設相似閾值時,創建第三待檢測新聞組,第三待檢測新聞組包括第一待分組新聞和第二待分組新聞,第三待檢測新聞組為當前待檢測新聞組;
步驟H:提取多條待分組新聞中第三待分組新聞的多個關鍵詞,第三待分組新聞為在多條待分組新聞中未被分組的新聞;
步驟I:獲取降序排列的第三待分組新聞的多個關鍵詞的權重序列和每個當前待檢測新聞組的權重序列,每個當前待檢測新聞組的多個關鍵詞的權重序列為每個當前待檢測新聞組中的新聞的多個關鍵詞的權重序列;
步驟J:從排序后的第三待分組新聞的權重序列和排序后的每個當前待檢測新聞組的權重序列中,選取前預設數量個權重組成的第三權重序列和第四權重序列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山安全軟件有限公司,未經北京金山安全軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711271015.1/2.html,轉載請聲明來源鉆瓜專利網。





