[發明專利]一種自然語言的摘要生成方法有效
| 申請號: | 202110579062.2 | 申請日: | 2021-05-26 |
| 公開(公告)號: | CN113220870B | 公開(公告)日: | 2022-09-06 |
| 發明(設計)人: | 郭樹理;宋曉偉;韓麗娜;王國威;楊文濤 | 申請(專利權)人: | 北京理工大學;中國人民解放軍總醫院第二醫學中心;海南軟件職業技術學院 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/289;G06N7/00;G06N3/04;G06N3/08 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 張利萍 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自然語言 摘要 生成 方法 | ||
1.一種基于Seq2seq模型的摘要生成方法,其特征在于,包括:
將待生成摘要的文本使用最大熵隱馬爾可夫模型進行中文分詞;
將分詞后的文本轉化為詞向量序列;
將詞向量序列輸入經訓練的Seq2seq模型得到的輸出作為摘要;
對所述Seq2seq模型中的Encoder編碼模型進行修改,將LSTM隱層單個細胞節點的輸入門和遺忘門結構計算公式改進如下:
其中,I表示輸入節點數,H表示輸出節點數,C表示隱藏節點數,wil表示輸入門中輸入節點i到隱藏節點l的連接權重,表示t時刻第i個節點的輸入,ζb表示輸入門中輸出節點系數,whl表示輸入門中輸出節點h到隱藏節點l的連接權重,表示t時刻第h個節點的輸出,ζs表示輸入門中隱藏節點系數,wcl表示輸入門中隱藏節點c到隱藏節點l的連接權重,表示t時刻第c個節點的狀態,表示t時刻輸入門的狀態,表示t時刻輸入門的輸出,g(·)表示輸入門的激活函數,wiφ表示遺忘門中輸入節點i到隱藏節點φ的連接權重,ηb表示遺忘門中輸出節點系數,whφ表示遺忘門中輸出節點h到隱藏節點φ的連接權重,ηs表示遺忘門中隱藏節點系數,wcφ表示遺忘門中隱藏節點c到隱藏節點φ的連接權重,表示t時刻遺忘門的狀態,表示t時刻遺忘門的輸出,f(·)表示遺忘門的激活函數,||·||*表示核范數,max(·)表示最大值函數。
2.根據權利要求1所述的方法,其特征在于,對所述最大熵隱馬爾可夫模型的目標函數進行調整,直接采用與文本特性直接相關的特征函數關系來計算當前誤差。
3.根據權利要求2所述的方法,其特征在于,所述最大熵隱馬爾可夫模型估計每個局部標記的概率模型為:
其中λ=λ1,λ2…λi…λn代表輸入的句子,n為句子長度,λi表示句子中的每個字,o=o1,o2…oi…on代表輸出的標簽序列,每個字的標簽為以下四個標記的一種:B、M、E、S,其中,B表示詞語開始,M表示中間詞,E表示單詞的結尾,S表示單個字,gi表示當前的輸入序列,表示如下:
gi=<oi-2,oi-1,λ1,λ2…λn,i>
fj(gi,λi)為gi,λi的第j個特征函數,f(gi,λi)共有J個特征函數,每個特征函數用布爾函數表示,函數值只能有1或者0兩種情況,即:
γj為fj(gi,λi)相關聯的需要學習的權重,
所述γj利用條件極大似然估計進行訓練,其中需要最大化的目標函數是:
其中,為對oi=B或M或E或S時進行求和。
4.根據權利要求1所述的方法,其特征在于,所述最大熵隱馬爾可夫模型的解碼過程采用改進的Viterbi算法,所述改進為:在Viterbi算法求解最優路徑概率的過程中用自適應閾值直接裁減掉不可能或者低概率的路徑,其中δt(i)代表時刻t第i個字的所有單個路徑的概率,b為自適應閾值中的參數,其作用為去掉所有路徑中概率排序靠后的(1-b)*100%比例的路徑。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學;中國人民解放軍總醫院第二醫學中心;海南軟件職業技術學院,未經北京理工大學;中國人民解放軍總醫院第二醫學中心;海南軟件職業技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110579062.2/1.html,轉載請聲明來源鉆瓜專利網。





