[發(fā)明專利]一種新聞標(biāo)題自動(dòng)生成方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010073302.7 | 申請(qǐng)日: | 2020-01-22 |
| 公開(公告)號(hào): | CN111241816B | 公開(公告)日: | 2023-10-27 |
| 發(fā)明(設(shè)計(jì))人: | 羅成;蔣宗禮 | 申請(qǐng)(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號(hào): | G06F40/258 | 分類號(hào): | G06F40/258;G06F16/951;G06N3/0442;G06N3/08 |
| 代理公司: | 北京思海天達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 吳蔭芳 |
| 地址: | 100124 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 新聞標(biāo)題 自動(dòng) 生成 方法 | ||
1.一種新聞標(biāo)題自動(dòng)生成方法,其特征在于,包括以下步驟:
(1):獲取新聞文本數(shù)據(jù),對(duì)新聞文本數(shù)據(jù)處理并劃分?jǐn)?shù)據(jù)集;
(2):對(duì)新聞文本數(shù)據(jù)進(jìn)行預(yù)處理,生成詞向量詞典;
(3):構(gòu)建編-解碼網(wǎng)絡(luò),其中編碼器網(wǎng)絡(luò)使用雙向GRU遞歸神經(jīng)網(wǎng)絡(luò)對(duì)預(yù)處理后的新聞文本數(shù)據(jù)進(jìn)行編碼;解碼網(wǎng)絡(luò)利用GRU網(wǎng)絡(luò)加注意力機(jī)制對(duì)編碼進(jìn)行解碼;
(4):利用融合方法對(duì)編-解碼網(wǎng)絡(luò)進(jìn)行訓(xùn)練,把待分析新聞數(shù)據(jù)輸入訓(xùn)練完成的編-解碼網(wǎng)絡(luò),根據(jù)詞匯表和此時(shí)的單詞概率分布生成新聞標(biāo)題。
2.根據(jù)權(quán)利要求1所述的一種新聞標(biāo)題自動(dòng)生成方法,其特征在于,所述步驟(1)包括:
(1.1):從新聞網(wǎng)站上爬取新聞數(shù)據(jù);
(1.2):只保留新聞文本數(shù)據(jù);
(1.3):選取新聞文本數(shù)據(jù)第一段和第二段作為article,如果內(nèi)容超過預(yù)選取的長(zhǎng)度S,則進(jìn)行截?cái)嗵幚恚绻L(zhǎng)度不夠S,那么就進(jìn)行0填充;
(1.4):選取新聞網(wǎng)頁標(biāo)簽中的摘要部分作為title,如果該新聞文網(wǎng)頁標(biāo)簽中沒有摘要,則將從該新聞文本數(shù)據(jù)的article中抽取第一條作為title;
(1.5):對(duì)新聞數(shù)據(jù)進(jìn)行劃分?jǐn)?shù)據(jù)集操作,按照9:1的比例分別對(duì)title和article對(duì)應(yīng)劃分為訓(xùn)練集和測(cè)試集。
3.根據(jù)權(quán)利要求1所述的一種新聞標(biāo)題自動(dòng)生成方法,其特征在于,所述步驟(2)進(jìn)一步包括:
對(duì)數(shù)據(jù)集使用分詞工具進(jìn)行分詞,去除停用詞,使用word2vec工具對(duì)數(shù)據(jù)進(jìn)行詞向量化生成詞表。
4.根據(jù)權(quán)利要求1所述的一種新聞標(biāo)題自動(dòng)生成方法,其特征在于,所述步驟(3)使用雙向GRU遞歸神經(jīng)網(wǎng)絡(luò)對(duì)預(yù)處理后的新聞文本數(shù)據(jù)進(jìn)行編碼:
(3.1)編碼器模型如下所示:
rt=σ(wr[ht-1,xt]+br) (1)
zt=σ(wz[ht-1,xt]+bz) (2)
其中zt表示更新門、rt表示重置門、ht表示輸出門、表示候選狀態(tài),ht-1表示前一時(shí)間步t-1的隱藏狀態(tài),xt表示經(jīng)過步驟2處理后的文本數(shù)據(jù),σ表示激活函數(shù)sigmoid,tanh表示激活函數(shù),表示權(quán)重參數(shù)矩陣,表示偏差系數(shù)。
(3.2)編碼器采用雙向結(jié)構(gòu)編碼,句子經(jīng)過步驟2轉(zhuǎn)換成詞向量的形式輸入編碼器,由前向后的GRU網(wǎng)絡(luò)順序讀句子中的每一個(gè)詞,得到前向隱藏狀態(tài)序列從后向前的GRU網(wǎng)絡(luò)倒序讀句中的每一個(gè)詞,得后向隱藏狀態(tài)序列把前向網(wǎng)絡(luò)和后向網(wǎng)絡(luò)各自的最后一個(gè)隱藏狀態(tài)連接,作為編碼器最終編碼輸出表示S,把編碼器得到的編碼表示S傳遞給解碼器進(jìn)行解碼,其中S表示如下:
其中n表示句子長(zhǎng)度,表示向前序列最后的一個(gè)隱藏狀態(tài),表示后向序列最后的一個(gè)隱藏狀態(tài),表示連接操作。
(3.3)將前向和后向結(jié)構(gòu)的隱藏狀態(tài)向量相連接,連接得到的向量作為雙向編碼器的隱藏狀態(tài)序列H=(h1,h2,···hn),雙向編碼器隱藏狀態(tài)序列(h1,h2,···hn)在解碼器中計(jì)算上下文向量ct的時(shí)候使用,具體計(jì)算如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010073302.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





