[發明專利]文章聚合方法及裝置在審
| 申請號: | 201711145235.X | 申請日: | 2017-11-17 |
| 公開(公告)號: | CN107748802A | 公開(公告)日: | 2018-03-02 |
| 發明(設計)人: | 蔣帥;陳思姣;羅雨;刁世亮 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/24 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙)11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文章 聚合 方法 裝置 | ||
1.一種文章聚合方法,其特征在于,包括:
獲取搜索日志;所述搜索日志中包括:多個搜索詞以及所述搜索詞的熱度信息;
根據所述搜索詞的熱度信息,獲取所述搜索詞中的熱點興趣點;
獲取滿足預設條件的多條新聞數據;
根據所述熱點興趣點對所述新聞數據進行標注,確定所述新聞數據中所包括的熱點興趣點以及所述熱點興趣點的評估分數;
針對各個熱點興趣點,獲取包括所述熱點興趣點,且包括的所述熱點興趣點的評估分數滿足預設分數閾值的至少一條新聞數據,根據所述至少一條新聞數據,生成與所述熱點興趣點對應的熱點新聞聚合文章。
2.根據權利要求1所述的方法,其特征在于,所述根據所述搜索詞的熱度信息,獲取所述搜索詞中的熱點興趣點,包括:
將多個搜索詞以及所述搜索詞的熱度信息,輸入預設的熱度模型,獲取所述搜索詞中的熱點搜索詞;
根據所述熱點搜索詞,查詢預設的實體詞典,判斷所述熱點搜索詞中是否包括實體;將包括實體的熱點搜索詞確定為候選興趣點;
獲取所述候選興趣點在新聞數據樣本中的命中率,根據所述命中率確定所述候選興趣點中的熱點興趣點。
3.根據權利要求2所述的方法,其特征在于,所述獲取所述候選興趣點在新聞數據樣本中的命中率,根據所述命中率確定所述候選興趣點中的熱點興趣點,包括:
獲取新聞數據樣本;
根據所述候選興趣點對所述新聞數據樣本中的多條新聞數據進行標注,獲取包括所述候選興趣點的新聞數據條數;
根據包括所述候選興趣點的新聞數據條數以及所述新聞數據樣本的總條數,計算所述候選興趣點的命中率;
將對應的命中率大于預設概率閾值的候選興趣點,確定為熱點興趣點。
4.根據權利要求1所述的方法,其特征在于,所述獲取滿足預設條件的多條新聞數據,包括:
獲取新聞數據庫;
將所述新聞數據庫中的新聞數據,輸入預設的低質模型,獲取所述新聞數據的分類;
獲取對應的分類滿足預設條件的多條新聞數據。
5.根據權利要求1所述的方法,其特征在于,所述根據所述熱點興趣點對所述新聞數據進行標注,確定所述新聞數據中所包括的熱點興趣點以及所述熱點興趣點的評估分數,包括:
針對各條新聞數據,對所述新聞數據進行標注,獲取所述新聞數據中所包括的熱點興趣點;
獲取所述熱點興趣點在所述新聞數據中的出現次數;
根據所述熱點興趣點在所述新聞數據中的出現次數,計算所述熱點興趣點的評估分數。
6.根據權利要求1所述的方法,其特征在于,所述根據所述至少一條新聞數據,生成與所述熱點興趣點對應的熱點新聞聚合文章,包括:
對所述至少一條新聞數據進行摘要生成,獲取所述至少一條新聞數據對應的摘要;
根據所述至少一條新聞數據對應的摘要以及文章模板,生成與所述熱點興趣點對應的熱點新聞聚合文章。
7.一種文章聚合裝置,其特征在于,包括:
獲取模塊,用于獲取搜索日志;所述搜索日志中包括:多個搜索詞以及所述搜索詞的熱度信息;
所述獲取模塊,還用于根據所述搜索詞的熱度信息,獲取所述搜索詞中的熱點興趣點;
所述獲取模塊,還用于獲取滿足預設條件的多條新聞數據;
標注模塊,用于根據所述熱點興趣點對所述新聞數據進行標注,確定所述新聞數據中所包括的熱點興趣點以及所述熱點興趣點的評估分數;
生成模塊,用于針對各個熱點興趣點,獲取包括所述熱點興趣點,且包括的所述熱點興趣點的評估分數滿足預設分數閾值的至少一條新聞數據,根據所述至少一條新聞數據,生成與所述熱點興趣點對應的熱點新聞聚合文章。
8.根據權利要求7所述的裝置,其特征在于,所述獲取模塊包括:
輸入單元,用于將多個搜索詞以及所述搜索詞的熱度信息,輸入預設的熱度模型,獲取所述搜索詞中的熱點搜索詞;
查詢單元,用于根據所述熱點搜索詞,查詢預設的實體詞典,判斷所述熱點搜索詞中是否包括實體;將包括實體的熱點搜索詞確定為候選興趣點;
確定單元,用于獲取所述候選興趣點在新聞數據樣本中的命中率,根據所述命中率確定所述候選興趣點中的熱點興趣點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711145235.X/1.html,轉載請聲明來源鉆瓜專利網。





