[發明專利]一種關聯新聞的確定方法以及裝置有效
| 申請號: | 201510974718.5 | 申請日: | 2015-12-22 |
| 公開(公告)號: | CN105574184B | 公開(公告)日: | 2019-09-24 |
| 發明(設計)人: | 張伸正;魏少俊;陳培軍 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京市浩天知識產權代理事務所(普通合伙) 11276 | 代理人: | 宋菲 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 關聯 新聞 確定 方法 以及 裝置 | ||
1.一種關聯新聞的確定方法,包括:
選取一新聞作為某一新聞類別的標桿新聞;
計算其他新聞與所述標桿新聞之間的距離;
當所述其他新聞與所述標桿新聞之間的距離不大于設定的閾值時,確定所述其他新聞為所述新聞類別的關聯新聞;
對已經確定為所述新聞類別的新聞根據以下因素中的至少一個進行排序:點擊率、新聞轉載率、以及評論數量,將排在第一的新聞作為所述標桿新聞;或者隨機選取M個已經聚類的新聞,通過計算M個新聞之間的距離,選擇與其他新聞M-1個新聞距離之和為最短的新聞作為所述標桿新聞;并且對發布時間超過一定時間閾值的新聞,不選擇其作為所述標桿新聞;
所述計算其他新聞與所述標桿新聞之間的距離包括:
步驟1201,對新聞進行分詞處理;
步驟1202,對分詞處理后的字詞進行去無用信息處理;
步驟1203,選擇具有代表性的字詞構成新聞的特征向量;
具體的,對于一篇新聞報道網頁,經過分詞以及去無用信息處理后,獲得一個字詞序列S=(s1,s2,s3......,sN),其中s1、s2、s3至sN表示經過分詞以及去無用信息處理后的字詞;
對字詞序列S中相同的字詞進行相關詞頻統計,再進一步按照字詞出現次數由高到低的順序進行排列,由前至后取出預設數量的字符作為該新聞文本的特征向量;
步驟1204,根據新聞的特征向量計算其他新聞與標桿新聞的距離;
其他新聞的特征向量為Si,標桿新聞的特征向量為Sp,其他新聞與標桿新聞之間的距離如下式所示:D=1-|Si∩Sp|/|Si∪Sp|;
其他新聞的特征向量Si與標桿新聞的特征向量Sp的交集與其他新聞的特征向量Si與標桿新聞的特征向量Sp的并集的比值與1的差值。
2.根據權利要求1所述的關聯新聞的確定方法,其特征在于,所述新聞包括:新聞標題,新聞摘要,或新聞全文。
3.根據權利要求1或2所述的關聯新聞的確定方法,其特征在于,所述距離由所述其他新聞的特征向量與所述標桿新聞的特征向量的內積或夾角的余弦確定。
4.根據權利要求1或2所述的關聯新聞的確定方法,其特征在于,所述距離由所述其他新聞的特征向量的最小哈希值與所述標桿新聞的特征向量的最小哈希值確定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510974718.5/1.html,轉載請聲明來源鉆瓜專利網。





