[發(fā)明專利]基于深度學(xué)習(xí)的新聞資訊呈現(xiàn)方法及相關(guān)設(shè)備在審
| 申請?zhí)枺?/td> | 202010601487.4 | 申請日: | 2020-06-28 |
| 公開(公告)號: | CN111813936A | 公開(公告)日: | 2020-10-23 |
| 發(fā)明(設(shè)計)人: | 王文浩;徐國強(qiáng) | 申請(專利權(quán))人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/951;G06F16/34;G06F40/216;G06K9/62 |
| 代理公司: | 深圳市賽恩倍吉知識產(chǎn)權(quán)代理有限公司 44334 | 代理人: | 何春蘭;孫芬 |
| 地址: | 518052 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 學(xué)習(xí) 新聞資訊 呈現(xiàn) 方法 相關(guān) 設(shè)備 | ||
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,提供一種基于深度學(xué)習(xí)的新聞資訊呈現(xiàn)方法,包括:從網(wǎng)絡(luò)上獲取實時新聞資訊,并將實時新聞資訊按照話題進(jìn)行分類;對話題下的每篇文章進(jìn)行預(yù)處理,提取預(yù)處理后的每篇文章的詞頻?逆文本頻率指數(shù)TF?IDF值,并確定文章中每個詞的詞向量;根據(jù)TF?IDF值以及詞向量,確定文章的特征向量;對每個話題下所有文章的特征向量進(jìn)行聚類,獲得話題下的多個子話題的細(xì)粒度聚類;使用BERTSUM模型,提取每個子話題下的多篇文章的代表性摘要;輸出話題、話題對應(yīng)的多個子話題以及每個子話題對應(yīng)的代表性摘要。本發(fā)明還涉及區(qū)塊鏈技術(shù),BERTSUM模型存儲在區(qū)塊鏈上。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種基于深度學(xué)習(xí)的新聞資訊呈現(xiàn)方法及相關(guān)設(shè)備。
背景技術(shù)
隨著互聯(lián)網(wǎng)的快速發(fā)展,社會進(jìn)入了信息極度爆炸的時代,每天將會產(chǎn)生大量的新聞,人們希望花費更少的時間去了解更多自己關(guān)注的資訊話題中的重要信息。
然而,目前的新聞資訊,通常是根據(jù)新聞的來源,將新聞資訊按照不同領(lǐng)域進(jìn)行分類,比如財經(jīng)、科技、國內(nèi)、國外等,這種分類方式,很難抓取到用戶想要關(guān)注的維度,新聞資訊的呈現(xiàn)效果較差。
發(fā)明內(nèi)容
鑒于以上內(nèi)容,有必要提供一種基于深度學(xué)習(xí)的新聞資訊呈現(xiàn)方法及相關(guān)設(shè)備,能夠提高新聞資訊的呈現(xiàn)效果。
本發(fā)明的第一方面提供一種基于深度學(xué)習(xí)的新聞資訊呈現(xiàn)方法,所述方法包括:
通過爬蟲技術(shù),從網(wǎng)絡(luò)上獲取實時新聞資訊,并將所述實時新聞資訊按照話題進(jìn)行分類;
針對每個話題,對所述話題下的每篇文章進(jìn)行預(yù)處理;
利用關(guān)鍵詞提取算法,提取預(yù)處理后的每篇文章的詞頻-逆文本頻率指數(shù) TF-IDF值,并確定所述文章中每個詞的詞向量;
根據(jù)所述TF-IDF值以及所述詞向量,確定所述文章的特征向量;
使用DBSCAN聚類算法,對每個所述話題下所有文章的特征向量進(jìn)行聚類,獲得所述話題下的多個子話題的細(xì)粒度聚類;
使用預(yù)先訓(xùn)練好的BERTSUM模型,對每個所述子話題下的多篇文章進(jìn)行摘要提取,獲得代表性摘要,其中,所述BERTSUM模型是基于中文預(yù)訓(xùn)練模型RoBERTa框架訓(xùn)練得到的;
輸出所述話題、所述話題對應(yīng)的多個子話題以及每個所述子話題對應(yīng)的代表性摘要。
在一種可能的實現(xiàn)方式中,所述使用預(yù)先訓(xùn)練好的BERTSUM模型,對每個所述子話題下的多篇文章進(jìn)行摘要提取,獲得代表性摘要包括:
使用預(yù)先訓(xùn)練好的BERTSUM模型,對每個所述子話題下的多篇文章進(jìn)行摘要提取,獲得多個文章摘要;
針對每篇所述文章中,計算文章篇幅長度與熱點關(guān)鍵詞數(shù)量的加權(quán)值,并將加權(quán)值最大的文章確定為目標(biāo)文章;
從所述多個文章摘要中,將所述目標(biāo)文章對應(yīng)的文章摘要確定為代表性摘要。
在一種可能的實現(xiàn)方式中,所述通過爬蟲技術(shù),從網(wǎng)絡(luò)上獲取實時新聞資訊之前,所述方法還包括:
獲取文章訓(xùn)練集;
對所述文章訓(xùn)練集中的每篇文章進(jìn)行預(yù)處理,獲得多個預(yù)處理文章;
使用預(yù)設(shè)標(biāo)識符對每個所述預(yù)處理文章的語句以及段落進(jìn)行銜接處理,獲得多個訓(xùn)練文章,其中,每個所述訓(xùn)練文章的每個句子攜帶有摘要標(biāo)識值;
將所述多個訓(xùn)練文章輸入至中文預(yù)訓(xùn)練模型RoBERTa框架中,獲得所述 RoBERTa框架的隱含層在目標(biāo)位置處的句子特征;
將所述句子特征輸入至全連接層,獲得所述訓(xùn)練文章中每個句子的摘要預(yù)測概率值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳壹賬通智能科技有限公司,未經(jīng)深圳壹賬通智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010601487.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種螺栓引出式濾波裝置
- 下一篇:一種Web電梯監(jiān)控平臺
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





