[發明專利]基于端到端深度學習模型的文章標題生成方法在審
| 申請號: | 202011451526.3 | 申請日: | 2020-12-09 |
| 公開(公告)號: | CN112560458A | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 劉暢;羅學優 | 申請(專利權)人: | 杭州艾耕科技有限公司 |
| 主分類號: | G06F40/258 | 分類號: | G06F40/258;G06F40/289;G06F16/34;G06F16/35 |
| 代理公司: | 杭州天昊專利代理事務所(特殊普通合伙) 33283 | 代理人: | 何碧珩;卓彩霞 |
| 地址: | 310052 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 端到端 深度 學習 模型 文章 標題 生成 方法 | ||
本發明公開了基于端到端深度學習模型的文章標題生成方法,本發明對文章進行分類,對文章標題進行意圖識別,在輸入端提供文章品類和標題意圖組合,這些額外信息優化了標題生成的質量,并且可以人工控制標題內容形式,具備更強的多樣性。本發明能夠選取熱門的標題意圖組合,生成的標題內容更加具有吸引力;因為模型生成的標題內容和輸入的意圖組合有關,因此可以通過給定不同的意圖組合來控制標題的內容形式,在文章標題需要突出某些方面內容時有很大作用。
技術領域
本發明具體涉及基于端到端深度學習模型的文章標題生成方法。
背景技術
針對垂直領域文章標題自動生成的問題,目前主要有以下的解決方法:
(1)根據用戶輸入搜索網絡上垂直領域的文章標題。
(2)收集垂直領域文章標題后,總結內容規律,人工編寫標題模板,在模板中填充文章的具體信息來生成標題。
現有技術中,存在以下缺點:
(1)基于搜索和模板的標題自動生成方法,生成的標題與文章正文關聯度低,會給讀者帶來題文不符的不良感受。
(2)現有技術生成的標題多樣性較差,無法人工控制標題內容形式。
發明內容
針對上述情況,為克服現有技術的缺陷,本發明提供基于端到端深度學習模型的文章標題生成方法。
為了實現上述目的,本發明提供以下技術方案:
基于端到端深度學習模型的文章標題生成方法,包括以下步驟:
(1)將文章正文輸入文章品類分類模型,得到文章品類;將文章分割成小段,利用意圖分類模型,預測文章意圖;根據文章品類和文章意圖,從該文章品類下的熱門的標題意圖組合中,優先選取由文章意圖組成的標題意圖組合;
(2)對文章正文進行分詞,選取摘要,得到正文摘要;
(3)將正文摘要、文章品類、標題意圖組合拼接后得到輸入數據,將其輸入到端到端標題生成模型,得到文章標題。
進一步地,所述端到端標題生成模型的構建包括數據集建立與模型訓練,所述數據集建立與模型訓練包括以下步驟:
(1.1)搜集垂直領域的文章語料;
(1.2)由垂直領域專家對步驟(1.1)得到的文章語料中的文章進行歸類,得到文章品類;選取一定量的文章,得到文章數據集{A1,A2,A3……Ai……An},n為文章數量,Ai表示第i篇文章,1≤i≤n;對文章進行分類標注得到文章品類數據集{C1,C2,C3……Ci……Cn},其中Ci是Ai的文章品類,訓練bert模型得到文章品類分類模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州艾耕科技有限公司,未經杭州艾耕科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011451526.3/2.html,轉載請聲明來源鉆瓜專利網。





