[發明專利]基于深度學習的新聞資訊呈現方法及相關設備在審
| 申請號: | 202010601487.4 | 申請日: | 2020-06-28 |
| 公開(公告)號: | CN111813936A | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 王文浩;徐國強 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/951;G06F16/34;G06F40/216;G06K9/62 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 何春蘭;孫芬 |
| 地址: | 518052 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 新聞資訊 呈現 方法 相關 設備 | ||
1.一種基于深度學習的新聞資訊呈現方法,其特征在于,所述方法包括:
通過爬蟲技術,從網絡上獲取實時新聞資訊,并將所述實時新聞資訊按照話題進行分類;
針對每個話題,對所述話題下的每篇文章進行預處理;
利用關鍵詞提取算法,提取預處理后的每篇文章的詞頻-逆文本頻率指數TF-IDF值,并確定所述文章中每個詞的詞向量;
根據所述TF-IDF值以及所述詞向量,確定所述文章的特征向量;
使用DBSCAN聚類算法,對每個所述話題下所有文章的特征向量進行聚類,獲得所述話題下的多個子話題的細粒度聚類;
使用預先訓練好的BERTSUM模型,對每個所述子話題下的多篇文章進行摘要提取,獲得代表性摘要,其中,所述BERTSUM模型是基于中文預訓練模型RoBERTa框架訓練得到的;
輸出所述話題、所述話題對應的多個子話題以及每個所述子話題對應的代表性摘要。
2.根據權利要求1所述的方法,其特征在于,所述使用預先訓練好的BERTSUM模型,對每個所述子話題下的多篇文章進行摘要提取,獲得代表性摘要包括:
使用預先訓練好的BERTSUM模型,對每個所述子話題下的多篇文章進行摘要提取,獲得多個文章摘要;
針對每篇所述文章中,計算文章篇幅長度與熱點關鍵詞數量的加權值,并將加權值最大的文章確定為目標文章;
從所述多個文章摘要中,將所述目標文章對應的文章摘要確定為代表性摘要。
3.根據權利要求1所述的方法,其特征在于,所述通過爬蟲技術,從網絡上獲取實時新聞資訊之前,所述方法還包括:
獲取文章訓練集;
對所述文章訓練集中的每篇文章進行預處理,獲得多個預處理文章;
使用預設標識符對每個所述預處理文章的語句以及段落進行銜接處理,獲得多個訓練文章,其中,每個所述訓練文章的每個句子攜帶有摘要標識值;
將所述多個訓練文章輸入至中文預訓練模型RoBERTa框架中,獲得所述RoBERTa框架的隱含層在目標位置處的句子特征;
將所述句子特征輸入至全連接層,獲得所述訓練文章中每個句子的摘要預測概率值;
將所述摘要預測概率值以及所述摘要標識值輸入至預設的損失函數中,計算損失值;
根據所述損失值,使用反向傳播算法,更新所述RoBERTa框架的參數以及所述全連接層的參數,以最小化損失值,獲得待驗證模型;
獲取測試集;
使用所述測試集對所述待驗證模型進行測試,獲得訓練好的BERTSUM模型;
將所述BERTSUM模型上傳至區塊鏈上。
4.根據權利要求3所述的方法,其特征在于,所述對所述文章訓練集中的每篇文章進行預處理,獲得多個預處理文章包括:
針對每篇所述文章的每個段落,按照所述段落的句子先后順序,提取所述段落的預設數量的目標句子;
將所有所述段落的目標句子進行組合,獲得預處理文章。
5.根據權利要求3所述的方法,其特征在于,所述對所述文章訓練集中的每篇文章進行預處理,獲得多個預處理文章包括:
針對每篇所述文章的每個段落,根據關鍵字提取算法,確定所述段落的目標關鍵詞;
提取所述目標關鍵詞所在的目標句子;
將所有所述段落提取的目標句子進行組合,獲得預處理文章。
6.根據權利要求3所述的方法,其特征在于,所述使用預設標識符對每個所述預處理文章的語句以及段落進行銜接處理,獲得多個訓練文章包括:
在所述預處理文章的任意相鄰的兩個段落中間,插入段落標識符;
在每個句子之前,插入語句標識符;
將進行插入處理后的預處理文章確定為訓練文章。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010601487.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種螺栓引出式濾波裝置
- 下一篇:一種Web電梯監控平臺





