[發明專利]專題生成方法、裝置、電子設備和存儲介質在審
| 申請號: | 202010227288.1 | 申請日: | 2020-03-27 |
| 公開(公告)號: | CN111460257A | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 韓翠云;陳玉光;黃佳艷;李法遠;劉遠圳;潘祿 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9535;G06F16/35;G06F40/30 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 王艷斌 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 專題 生成 方法 裝置 電子設備 存儲 介質 | ||
本申請公開了一種專題生成方法,涉及知識圖譜技術領域。具體實現方案為:獲取目標搜索詞;根據目標搜索詞生成專題名稱;根據目標搜索詞進行資源抓取,以獲取多個候選搜索結果;根據專題名稱對多個候選搜索結果進行過濾,得到專題名稱對應的多個目標搜索結果;將多個目標搜索結果輸入判別模型,確定任意兩個目標搜索結果的相似度,并根據任意兩個目標搜索結果的相似度進行聚類以生成多個搜索結果類別;根據專題名稱和多個搜索結果類別生成專題。由此,實現了根據目標搜索詞和搜索結果自動生成專題,提高了專題生成的效率和時效性,解決了相關技術中采用人工的方式生成專題時存在時效性差、浪費人力資源的技術問題。
技術領域
本申請涉及計算機技術領域的信息處理技術領域,尤其涉及一種專題生成方法、裝置、電子設備和存儲介質。
背景技術
事件是新聞資訊的上層聚合,而專題則是事件的上層聚合。專題對事件有一定組織,更便于用戶閱讀以理解整個事件的發展過程。但是,現有的事件專題大多是人工整生成的,存在人力成本高,時效性低的缺點。
發明內容
本申請第一方面實施例提出了一種專題生成方法,包括:
獲取目標搜索詞;
根據所述目標搜索詞生成專題名稱;
根據所述目標搜索詞進行資源抓取,以獲取多個候選搜索結果;
根據所述專題名稱對所述多個候選搜索結果進行過濾,得到所述專題名稱對應的多個目標搜索結果;
將多個目標搜索結果輸入歸一判別模型,確定任意兩個目標搜索結果的相似度,并根據所述任意兩個目標搜索結果的相似度進行聚類以生成所述多個搜索結果類別;以及
根據所述專題名稱和所述多個搜索結果類別生成所述專題。
本申請第二方面實施例提供了一種專題生成裝置,包括:
第一獲取模塊,用于獲取目標搜索詞;
第一生成模塊,用于根據所述目標搜索詞生成專題名稱;
第二獲取模塊,用于根據所述目標搜索詞進行資源抓取,以獲取多個候選搜索結果;
過濾模塊,用于根據所述專題名稱對所述多個候選搜索結果進行過濾,得到所述專題名稱對應的多個目標搜索結果;
第二生成模塊,用于將多個目標搜索結果輸入歸一判別模型,確定任意兩個目標搜索結果的相似度,并根據所述任意兩個目標搜索結果的相似度進行聚類以生成所述多個搜索結果類別;以及
第三生成模塊,用于根據所述專題名稱和所述多個搜索結果類別生成所述專題。
本申請第三方面實施例提供了一種電子設備,包括:
至少一個處理器;以及
與所述至少一個處理器通信連接的存儲器;其中,
所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行第一方面實施例的專題生成方法。
本申請第四方面實施例提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,所述計算機指令用于使所述計算機執行第一方面實施例的專題生成方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010227288.1/2.html,轉載請聲明來源鉆瓜專利網。





