[發(fā)明專利]一種基于增強(qiáng)語義的自動文本摘要方法有效
| 申請?zhí)枺?/td> | 201810281684.5 | 申請日: | 2018-04-02 |
| 公開(公告)號: | CN108804495B | 公開(公告)日: | 2021-10-22 |
| 發(fā)明(設(shè)計(jì))人: | 史景倫;洪冬梅;寧培陽;王桂鴻 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/289 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 增強(qiáng) 語義 自動 文本 摘要 方法 | ||
1.一種基于增強(qiáng)語義的自動文本摘要方法,其特征在于,所述的自動文本摘要方法包括:
文本預(yù)處理步驟,對文本進(jìn)行分詞、形態(tài)還原以及指代消解,按照詞頻信息從高到低排列,將詞轉(zhuǎn)為id序列;
編碼步驟,將輸入序列進(jìn)行編碼,經(jīng)過神經(jīng)網(wǎng)絡(luò)得到攜帶文本序列信息的隱藏層狀態(tài)向量;
解碼步驟,將由編碼器得到的最后隱藏層狀態(tài)進(jìn)行初始化,開始進(jìn)行解碼獲得每一步隱藏層狀態(tài)st;
注意力分布計(jì)算步驟,結(jié)合輸入序列的隱藏層狀態(tài)與當(dāng)前時(shí)刻解碼獲得的隱藏層狀態(tài)st進(jìn)行語境向量的計(jì)算,得到當(dāng)前t時(shí)刻的語境向量ut;
摘要生成步驟,將解碼步驟得到的輸出經(jīng)過兩個(gè)線性層映射為詞表大小維度的向量,每一個(gè)維代表詞表中單詞的概率,用選擇策略選出候選詞,生成摘要;其中,所述的選擇策略指的是測試階段用beam search算法在每一步選出概率最大的4個(gè)結(jié)果,直到最后得到概率最大的摘要序列,而訓(xùn)練階段只選概率最大的詞,摘要完全生成后與參考摘要進(jìn)行對比評估;
所述的摘要生成步驟還包括:將最終得到的預(yù)測摘要和源文本序列進(jìn)行語義相似度Rel計(jì)算,訓(xùn)練過程懲罰低語義相關(guān)度的摘要,計(jì)算如下:
其中,和分別是前向和后向的隱藏層狀態(tài),Gt是編碼器隱藏層狀態(tài),λ是一個(gè)可調(diào)節(jié)因子,M是生成的摘要序列長度,losst是每一步的損失,與語義相似度Rel結(jié)合構(gòu)成總的損失loss;
所述的摘要生成步驟中,每一步只生成一個(gè)詞,最終生成摘要最大長度為100,也就是從編碼步驟到摘要生成步驟最大循環(huán)次數(shù)是100,當(dāng)輸出結(jié)束標(biāo)志或者達(dá)到最大長度時(shí)停止,概率計(jì)算公式如下:
pv=softmax(V1(V2[st,ut]+b2)+b1)
其中,V1,V2,b1,b2都是需要學(xué)習(xí)的參數(shù),pv為預(yù)測下一個(gè)單詞提供依據(jù)。
2.根據(jù)權(quán)利要求1所述的一種基于增強(qiáng)語義的自動文本摘要方法,其特征在于,所述的文本預(yù)處理步驟中文本的數(shù)據(jù)是通過爬蟲爬取的語料庫或開源的語料庫,并由文章-摘要對組成。
3.根據(jù)權(quán)利要求1所述的一種基于增強(qiáng)語義的自動文本摘要方法,其特征在于,所述的文本預(yù)處理步驟中,獲取前200k的詞作為基本詞表,同時(shí)將特殊標(biāo)記[PAD]、[UNK]、[START]和[STOP]加入詞表,并把文本的詞轉(zhuǎn)為id序列,每一篇對應(yīng)一個(gè)序列。
4.根據(jù)權(quán)利要求1所述的一種基于增強(qiáng)語義的自動文本摘要方法,其特征在于,所述的輸入序列是將文本經(jīng)過轉(zhuǎn)換后獲得的id序列對應(yīng)的詞向量,詞向量維度128,序列最大長度取為700。
5.根據(jù)權(quán)利要求1所述的一種基于增強(qiáng)語義的自動文本摘要方法,其特征在于,所述的神經(jīng)網(wǎng)絡(luò)是一個(gè)單層雙向的LSTM,隱藏層單元數(shù)是256,將正反向的隱藏層狀態(tài)h連接起來得到最終隱藏層狀態(tài)。
6.根據(jù)權(quán)利要求1所述的一種基于增強(qiáng)語義的自動文本摘要方法,其特征在于,所述的解碼步驟過程如下:
接收輸入的詞向量以及上一時(shí)刻隱藏層狀態(tài),經(jīng)過單層單向的LSTM神經(jīng)網(wǎng)絡(luò),得到當(dāng)前時(shí)刻隱藏層狀態(tài)st,隱藏單元數(shù)是256。
7.根據(jù)權(quán)利要求1所述的一種基于增強(qiáng)語義的自動文本摘要方法,其特征在于,所述的語境向量ut的計(jì)算方式如下:
其中,v,Wh,Ws和batt是需要學(xué)習(xí)的參數(shù),hi為encoder的隱藏層狀態(tài)值,N為輸入序列的長度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810281684.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實(shí)鏡片、增強(qiáng)現(xiàn)實(shí)眼鏡及增強(qiáng)現(xiàn)實(shí)成像方法
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級語義表征和語義計(jì)算的信號語義識別方法
- 語義分類方法及裝置、存儲介質(zhì)及電子設(shè)備





