[發明專利]一種關聯新聞的確定方法以及裝置有效
| 申請號: | 201510974713.2 | 申請日: | 2015-12-22 |
| 公開(公告)號: | CN105653598B | 公開(公告)日: | 2019-07-09 |
| 發明(設計)人: | 張伸正;魏少俊;陳培軍 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35 |
| 代理公司: | 北京市浩天知識產權代理事務所(普通合伙) 11276 | 代理人: | 宋菲 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 關聯 新聞 確定 方法 以及 裝置 | ||
本發明公開了一種關聯新聞的確定方法以及裝置,其中,所述方法包括:選取一新聞作為某一新聞類別的標桿新聞;計算其他新聞與所述標桿新聞之間的距離;當所述其他新聞與所述標桿新聞之間的距離不大于設定的閾值時,確定所述其他新聞為所述新聞類別的關聯新聞。本發明的關聯新聞的確定方法以及裝置能夠有效的降低新聞稿件聚類過程中相關度計算的計算量,能夠提高關聯新聞確定的速度和效率。
技術領域
本發明涉及互聯網技術領域,尤其涉及一種關聯信息確定的方法和系統。
背景技術
隨著互聯網技術的不斷發展和日益普及,新聞用戶所面對的信息量正在以驚人的速度增長,對能夠方便地獲取自己感興趣的新聞信息的需求越來越迫切。
由于新聞信息量急速增加,新聞類別越發細化,并具有很強的實時性,往往更新迅速,時效極短,因此對新聞進行有效的分類,以提供給不同的用戶或者提供給不同的應用是十分重要的。
現有技術中,存在一種對新聞進行分類的方法,具體為計算新聞稿件之間的相關度,從而確定具有一定相關度的新聞簇。
現有技術中的這種方法雖然能夠聚類有一定相關度的新聞,但是,新聞稿件之間的相關度的均需要計算后才能得到聚類結果,計算量大,計算效率不夠高,難以快速確定關聯新聞。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決或者減緩上述問題的一種關聯新聞的確定的方法和裝置。
根據本發明的一個方面,提供了一種關聯新聞的確定方法,包括:選取多個新聞作為某一新聞類別的多個標桿新聞;計算其他新聞與多個標桿新聞之間的距離;當其他新聞與多個標桿新聞之間的距離不大于設定的閾值時,確定其他新聞為新聞類別的關聯新聞。
可選地,在根據本發明的實施例的關聯新聞的確定方法中,新聞包括:新聞標題,新聞摘要,或新聞全文。
可選地,在根據本發明的實施例的關聯新聞的確定方法中,距離由其他新聞的特征向量與標桿新聞的特征向量的交集確定。
可選地,在根據本發明的實施例的關聯新聞的確定方法中,距離由其他新聞的特征向量與標桿新聞的特征向量的內積或夾角的余弦確定。
可選地,在根據本發明的實施例的關聯新聞的確定方法中,距離由其他新聞的特征向量的最小哈希值與標桿新聞的特征向量的最小哈希值確定。
可選地,在根據本發明的實施例的關聯新聞的確定方法中,特征向量的構成具體為將新聞進行分詞處理后形成字詞序列,根據字詞序列中字詞出現頻率由高到低的順序重新排列字詞順序,由前至后取出預設數量的字詞作為新聞的特征向量。
可選地,在根據本發明的實施例的關聯新聞的確定方法中,將新聞進行分詞處理后進一步進行去無用信息處理再形成排序前的字詞序列。
可選地,在根據本發明的實施例的關聯新聞的確定方法中,對已經確定為所述新聞類別的新聞根據以下因素中的至少一個進行排序:點擊率、新聞轉載率、以及評論數量,將排在第一的新聞作為所述標桿新聞。
可選地,在根據本發明的實施例的關聯新聞的確定方法中,當其他新聞與多個標桿新聞之間的距離不大于設定的閾值中的閾值均不相同或至少兩個不相同。
可選地,在根據本發明的實施例的關聯新聞的確定方法中,當其他新聞與多個標桿新聞之間的距離不大于設定的閾值中的閾值是相同的。
根據本發明的另一個方面,提供了一種關聯新聞的確定裝置,包括選取裝置,用于選取多個新聞作為某一新聞類別的多個標桿新聞;距離計算裝置,用于計算其他新聞與多個標桿新聞之間的距離;關聯新聞確定裝置,用于當其他新聞與多個標桿新聞之間的距離不大于設定的閾值時,確定其他新聞為新聞類別的關聯新聞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510974713.2/2.html,轉載請聲明來源鉆瓜專利網。





