[發(fā)明專利]基于相似度的標(biāo)題生成模型的訓(xùn)練方法及計(jì)算設(shè)備在審
| 申請?zhí)枺?/td> | 201911159176.0 | 申請日: | 2019-11-22 |
| 公開(公告)號: | CN110968666A | 公開(公告)日: | 2020-04-07 |
| 發(fā)明(設(shè)計(jì))人: | 柳燕煌 | 申請(專利權(quán))人: | 掌閱科技股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/258 |
| 代理公司: | 北京市浩天知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11276 | 代理人: | 梁倩 |
| 地址: | 100124 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 相似 標(biāo)題 生成 模型 訓(xùn)練 方法 計(jì)算 設(shè)備 | ||
本發(fā)明公開了一種基于相似度的標(biāo)題生成模型的訓(xùn)練方法及計(jì)算設(shè)備,該方法包括:從文章集合提取各個文章內(nèi)容對應(yīng)的標(biāo)題;針對文章集合中的每個文章內(nèi)容,對文章內(nèi)容的全文以及文章內(nèi)容的各個組成語句進(jìn)行特征提取,得到文章內(nèi)容的全文的第一特征向量以及各個組成語句對應(yīng)的第二特征向量;計(jì)算第一特征向量與各個第二特征向量之間的相似度;根據(jù)相似度從各個組成語句中提取詞語,構(gòu)建對應(yīng)的詞語樣本集合;根據(jù)各個文章內(nèi)容對應(yīng)的詞語樣本集合以及各個文章內(nèi)容對應(yīng)的標(biāo)題,訓(xùn)練得到標(biāo)題生成模型。該方案依據(jù)文章內(nèi)容的特征向量以及各個組成語句對應(yīng)的特征向量之間的相似度便捷地構(gòu)建詞語樣本集合,所得到的標(biāo)題生成模型能夠快速地生成文章的標(biāo)題。
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,具體涉及一種基于相似度的標(biāo)題生成模型的訓(xùn)練方法、計(jì)算設(shè)備及存儲介質(zhì)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,越來越多的用戶喜歡通過互聯(lián)網(wǎng)閱讀新聞、電子書等文章。對于文章來說,其標(biāo)題十分重要,一個優(yōu)質(zhì)的標(biāo)題既能夠充分反映文章的主要內(nèi)容,又能夠提高用戶閱讀的興趣。在現(xiàn)有技術(shù)中,對于文章標(biāo)題的確定,大多是通過文章處理人員對文章內(nèi)容進(jìn)行閱讀與總結(jié)的方式來確定的。以文章為電子書為例,一個電子書閱讀平臺中一般會存儲有幾十萬本甚至數(shù)量更多的電子書,若依據(jù)現(xiàn)有的這種處理方式來確定每本電子書的標(biāo)題,則需要耗費(fèi)大量的人力成本和時(shí)間成本,存在著處理效率較低的問題。
發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的基于相似度的標(biāo)題生成模型的訓(xùn)練方法、計(jì)算設(shè)備及存儲介質(zhì)。
根據(jù)本發(fā)明的一個方面,提供了一種基于相似度的標(biāo)題生成模型的訓(xùn)練方法,包括:從文章集合中提取各個文章內(nèi)容對應(yīng)的標(biāo)題;針對文章集合中的每個文章內(nèi)容,對文章內(nèi)容的全文以及文章內(nèi)容的各個組成語句進(jìn)行特征提取,得到文章內(nèi)容的全文的第一特征向量以及各個組成語句對應(yīng)的第二特征向量;計(jì)算第一特征向量與各個第二特征向量之間的相似度;根據(jù)第一特征向量與各個第二特征向量之間的相似度,從第二特征向量對應(yīng)的各個組成語句中提取詞語,構(gòu)建文章內(nèi)容對應(yīng)的詞語樣本集合;根據(jù)各個文章內(nèi)容對應(yīng)的詞語樣本集合中的詞語樣本以及各個文章內(nèi)容對應(yīng)的標(biāo)題,訓(xùn)練得到標(biāo)題生成模型。
根據(jù)本發(fā)明的另一個方面,提供了一種基于相似度的標(biāo)題生成方法,包括:獲取待處理文章內(nèi)容以及待處理文章內(nèi)容的各個組成語句;對待處理文章內(nèi)容的全文以及待處理文章內(nèi)容的各個組成語句進(jìn)行特征提取,得到待處理文章內(nèi)容的全文的第一特征向量以及各個組成語句對應(yīng)的第二特征向量;計(jì)算第一特征向量與各個第二特征向量之間的相似度;根據(jù)第一特征向量與各個第二特征向量之間的相似度,從第二特征向量對應(yīng)的各個組成語句中提取詞語,構(gòu)建待處理文章內(nèi)容對應(yīng)的詞語集合;將詞語集合中的詞語輸入至經(jīng)過訓(xùn)練的標(biāo)題生成模型中,將標(biāo)題生成模型的輸出結(jié)果作為待處理文章的標(biāo)題。
根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算設(shè)備,包括:處理器、存儲器、通信接口和通信總線,處理器、存儲器和通信接口通過通信總線完成相互間的通信;存儲器用于存放至少一可執(zhí)行指令,可執(zhí)行指令使處理器執(zhí)行以下操作:從文章集合中提取各個文章內(nèi)容對應(yīng)的標(biāo)題;針對文章集合中的每個文章內(nèi)容,對文章內(nèi)容的全文以及文章內(nèi)容的各個組成語句進(jìn)行特征提取,得到文章內(nèi)容的全文的第一特征向量以及各個組成語句對應(yīng)的第二特征向量;計(jì)算第一特征向量與各個第二特征向量之間的相似度;根據(jù)第一特征向量與各個第二特征向量之間的相似度,從第二特征向量對應(yīng)的各個組成語句中提取詞語,構(gòu)建文章內(nèi)容對應(yīng)的詞語樣本集合;根據(jù)各個文章內(nèi)容對應(yīng)的詞語樣本集合中的詞語樣本以及各個文章內(nèi)容對應(yīng)的標(biāo)題,訓(xùn)練得到標(biāo)題生成模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于掌閱科技股份有限公司,未經(jīng)掌閱科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911159176.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于人工智能的文章標(biāo)題生成方法、裝置、設(shè)備及介質(zhì)
- 一種相同新聞信息的歸類方法及系統(tǒng)
- 一種新聞主副標(biāo)題檢測方法及裝置
- 標(biāo)題識別方法及裝置
- 用于真產(chǎn)品詞識別的系統(tǒng)、方法和計(jì)算機(jī)可讀介質(zhì)
- 一種文檔系統(tǒng)的側(cè)邊欄展示方法及系統(tǒng)
- 一種文檔標(biāo)題層級的分析方法、裝置及服務(wù)器
- 一種文章標(biāo)題優(yōu)化方法、系統(tǒng)、介質(zhì)及設(shè)備
- 一種文本標(biāo)注方法、裝置、設(shè)備及可讀存儲介質(zhì)
- 數(shù)據(jù)標(biāo)識方法、裝置、計(jì)算機(jī)可讀存儲介質(zhì)及電子設(shè)備





