[發明專利]一種數字資源熱點生成方法及裝置有效
| 申請號: | 201510933594.6 | 申請日: | 2015-12-15 |
| 公開(公告)號: | CN105528432B | 公開(公告)日: | 2019-04-26 |
| 發明(設計)人: | 許茜;葉茂;任彩紅;徐劍波;湯幟 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司;北京大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司 11250 | 代理人: | 馬永芬 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數字 資源 熱點 生成 方法 裝置 | ||
本發明提供一種數字資源熱點生成方法,首先,從數字資源中提取標題和正文;然后分別獲取標題相似度矩陣和正文相似度矩陣;通過分別聚類獲得標題候選熱點集和正文候選熱點集;最后,根據所述標題候選熱點集和所述正文候選熱點集獲取候選熱點集。該方案中,使用正文信息和標題信息來進行熱點推薦,正文信息和標題信息采用不同的方式處理,相互作為補充和依據,使得獲得的熱點更加準確,避免了現有技術中對主題詞表和新詞發現的需求,減弱熱點發現對熱點個數和經驗參數的依賴,實現了面向數字報刊的熱點新聞自動發現。
技術領域
本發明涉及數字資源處理領域,具體涉及一種數字資源熱點自動生成方法及裝置。
背景技術
隨著互聯網的迅猛發展,數字資源成為人們獲取信息的重要途徑之一,數字報刊的閱讀也日益普及。同時,隨著生活節奏的加快,用戶對高效閱讀的需求更加強烈,如何從海量的數字資源中獲取有價值的信息變得尤為重要。面對每日更新的新聞報道,快速自動發現熱點并推薦給用戶成為實現高效閱讀的可行途徑。由于數字資源的信息量巨大,人工干預進行熱點推薦無疑需要花費大量的人力和時間,因此利用新聞報道自身信息實現熱點新聞的自動發現成為亟待解決的問題。
傳統的熱點發現技術大多需要事先進行主題詞提取、給定熱點個數或設置各種經驗參數。該類方法對主題詞的選擇及新詞發現具有很強的依賴性,從而導致處理新詞頻出的報刊文本時效果欠佳,且參數的選擇會嚴重影響熱點發現的效果,對熱點個數和經驗參數具有一定的依賴,需要預先設定聚類數目,對熱點個數也沒有很好的自適應性。
發明內容
因此,本發明要解決的技術問題在于克服現有技術中熱點發現技術效果差、需要預先設置參數依賴性強的缺陷。
本申請提供一種數字資源熱點生成方法,包括如下步驟
從數字資源中提取標題和正文;
分別獲取標題相似度矩陣和正文相似度矩陣;
對所述標題相似度矩陣進行聚類,根據標題相似度聚類結果獲得標題候選熱點集;
對所述正文相似度矩陣進行聚類,根據正文相似度聚類結果獲得正文候選熱點集;
根據所述標題候選熱點集和所述正文候選熱點集獲取候選熱點集。
優選地,獲取候選熱點集后,還包括根據候選熱點集中的每個集合內數字資源的數目以及數字資源的屬性信息確定集合的排序,將排序在前的預設數量的集合作為熱點。
優選地,根據標題相似度聚類結果獲得標題候選熱點集的步驟包括:
獲取標題相似度聚類結果中每個集合中的數字資源的數量;
若所述數量小于第一閾值,則刪除該集合;
若所述數量位于第一閾值和第二閾值之間,則將該集合加入所述標題候選熱點集中;
若所述數量大于第二閾值,則進行二次聚類,得到二次聚類結果,獲取二次聚類結果中每個集合中的數字資源的數量,若該數量小于所述第一閾值,刪除該集合,若該數量位于第一閾值和第二閾值之間,則將該集合加入所述標題候選熱點集,若該數量大于所述第二閾值,則刪除該集合。
優選地,根據正文相似度聚類結果獲得正文候選熱點集的步驟包括:
獲取正文相似度聚類結果中每個集合中的數字資源的數量;
若所述數量小于第一閾值,則刪除該集合;
若所述數量位于第一閾值和第二閾值之間,則將該集合加入所述正文候選熱點集中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司;北京大學,未經北大方正集團有限公司;北京方正阿帕比技術有限公司;北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510933594.6/2.html,轉載請聲明來源鉆瓜專利網。





