[發(fā)明專利]文章聚合方法及裝置在審
| 申請?zhí)枺?/td> | 201711145235.X | 申請日: | 2017-11-17 |
| 公開(公告)號: | CN107748802A | 公開(公告)日: | 2018-03-02 |
| 發(fā)明(設(shè)計)人: | 蔣帥;陳思姣;羅雨;刁世亮 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/24 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文章 聚合 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種文章聚合方法及裝置。
背景技術(shù)
目前,互聯(lián)網(wǎng)上的信息呈爆發(fā)式的增長,圍繞互聯(lián)網(wǎng)數(shù)據(jù)展開的趨勢性應(yīng)用和產(chǎn)品正不斷受到關(guān)注,例如熱點新聞聚合文章。現(xiàn)有技術(shù)中,生成熱點新聞聚合文章時,是由編輯員從海量的新聞數(shù)據(jù)中挑選出熱點新聞,獲取熱點新聞中的摘要信息,編輯得到熱點新聞聚合文章,費時費力,且得到的熱點新聞聚合文章覆蓋的熱點興趣點不全面,效率低且準確率低。
發(fā)明內(nèi)容
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的第一個目的在于提出一種文章聚合方法,用于解決現(xiàn)有技術(shù)中熱點新聞聚合文章生成效率低且準確率低的問題。
本發(fā)明的第二個目的在于提出一種文章聚合裝置。
本發(fā)明的第三個目的在于提出另一種文章聚合裝置。
本發(fā)明的第四個目的在于提出一種非臨時性計算機可讀存儲介質(zhì)。
本發(fā)明的第五個目的在于提出一種計算機程序產(chǎn)品。
為達上述目的,本發(fā)明第一方面實施例提出了一種文章聚合方法,包括:
獲取搜索日志;所述搜索日志中包括:多個搜索詞以及所述搜索詞的熱度信息;
根據(jù)所述搜索詞的熱度信息,獲取所述搜索詞中的熱點興趣點;
獲取滿足預(yù)設(shè)條件的多條新聞數(shù)據(jù);
根據(jù)所述熱點興趣點對所述新聞數(shù)據(jù)進行標注,確定所述新聞數(shù)據(jù)中所包括的熱點興趣點以及所述熱點興趣點的評估分數(shù);
針對各個熱點興趣點,獲取包括所述熱點興趣點,且包括的所述熱點興趣點的評估分數(shù)滿足預(yù)設(shè)分數(shù)閾值的至少一條新聞數(shù)據(jù),根據(jù)所述至少一條新聞數(shù)據(jù),生成與所述熱點興趣點對應(yīng)的熱點新聞聚合文章。
進一步的,所述根據(jù)所述搜索詞的熱度信息,獲取所述搜索詞中的熱點興趣點,包括:
將多個搜索詞以及所述搜索詞的熱度信息,輸入預(yù)設(shè)的熱度模型,獲取所述搜索詞中的熱點搜索詞;
根據(jù)所述熱點搜索詞,查詢預(yù)設(shè)的實體詞典,判斷所述熱點搜索詞中是否包括實體;將包括實體的熱點搜索詞確定為候選興趣點;
獲取所述候選興趣點在新聞數(shù)據(jù)樣本中的命中率,根據(jù)所述命中率確定所述候選興趣點中的熱點興趣點。
進一步的,所述獲取所述候選興趣點在新聞數(shù)據(jù)樣本中的命中率,根據(jù)所述命中率確定所述候選興趣點中的熱點興趣點,包括:
獲取新聞數(shù)據(jù)樣本;
根據(jù)所述候選興趣點對所述新聞數(shù)據(jù)樣本中的多條新聞數(shù)據(jù)進行標注,獲取包括所述候選興趣點的新聞數(shù)據(jù)條數(shù);
根據(jù)包括所述候選興趣點的新聞數(shù)據(jù)條數(shù)以及所述新聞數(shù)據(jù)樣本的總條數(shù),計算所述候選興趣點的命中率;
將對應(yīng)的命中率大于預(yù)設(shè)概率閾值的候選興趣點,確定為熱點興趣點。
進一步的,所述獲取滿足預(yù)設(shè)條件的多條新聞數(shù)據(jù),包括:
獲取新聞數(shù)據(jù)庫;
將所述新聞數(shù)據(jù)庫中的新聞數(shù)據(jù),輸入預(yù)設(shè)的低質(zhì)模型,獲取所述新聞數(shù)據(jù)的分類;
獲取對應(yīng)的分類滿足預(yù)設(shè)條件的多條新聞數(shù)據(jù)。
進一步的,所述根據(jù)所述熱點興趣點對所述新聞數(shù)據(jù)進行標注,確定所述新聞數(shù)據(jù)中所包括的熱點興趣點以及所述熱點興趣點的評估分數(shù),包括:
針對各條新聞數(shù)據(jù),對所述新聞數(shù)據(jù)進行標注,獲取所述新聞數(shù)據(jù)中所包括的熱點興趣點;
獲取所述熱點興趣點在所述新聞數(shù)據(jù)中的出現(xiàn)次數(shù);
根據(jù)所述熱點興趣點在所述新聞數(shù)據(jù)中的出現(xiàn)次數(shù),計算所述熱點興趣點的評估分數(shù)。
進一步的,所述根據(jù)所述至少一條新聞數(shù)據(jù),生成與所述熱點興趣點對應(yīng)的熱點新聞聚合文章,包括:
對所述至少一條新聞數(shù)據(jù)進行摘要生成,獲取所述至少一條新聞數(shù)據(jù)對應(yīng)的摘要;
根據(jù)所述至少一條新聞數(shù)據(jù)對應(yīng)的摘要以及文章模板,生成與所述熱點興趣點對應(yīng)的熱點新聞聚合文章。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711145235.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





