[發明專利]文摘自動提取方法、裝置、計算機設備及存儲介質在審
| 申請號: | 201810191506.3 | 申請日: | 2018-03-08 |
| 公開(公告)號: | CN108509413A | 公開(公告)日: | 2018-09-07 |
| 發明(設計)人: | 林林 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/22 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 林燕云 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 隱含 目標文本 計算機設備 存儲介質 自動提取 詞序列 第一層 上下文變量 上下文向量 解碼 編碼解碼 方式獲取 概率分布 獲取目標 序列輸入 隱藏狀態 編碼器 更新 文本 概率 申請 | ||
本申請公開了一種文摘自動提取方法、裝置、計算機設備及存儲介質。該方法包括:依序獲取目標文本的字符并按順序輸入至LSTM模型中第一層LSTM結構進行編碼,得到隱含狀態組成的序列;將隱含狀態組成的序列輸入至LSTM模型中第二層LSTM結構進行解碼得到摘要的字詞序列;將摘要的字詞序列輸入第一層LSTM結構進行編碼得到更新后隱含狀態組成的序列;根據更新后隱含狀態組成的序列中編碼器隱藏狀態的貢獻值獲取上下文向量,并獲取對應字詞的概率分布,將概率最大的字詞作為目標文本的摘要。該方法采用LSTM對目標文本進行編碼解碼后,結合上下文變量得到目標文本的摘要,采取概括方式獲取摘要,提高獲取準確性。
技術領域
本申請涉及文摘提取技術領域,尤其涉及一種文摘自動提取方法、裝置、計算機設備及存儲介質。
背景技術
目前,對文章概括文摘時,采用的是基于抽取式的方法。抽取式文摘是提取文章中最有代表性的關鍵句作為該文章的文摘。具體如下:
1)首先,對文章進行分詞,去停用詞,獲得的組成文章的基本詞組。
2)然后,根據計算詞頻獲取高頻詞,并把高頻詞所在的句子作為關鍵句。
3)最后,指定若干數量的關鍵句即可組合成文摘。
上述抽取式方法比較適用于新聞、議論文等在文中往往出現總結性長句子的文體。例如財經文章,高頻詞往往是“現金”、“股票”、“央行”、“利息”等,抽取結果就往往是“央行加息導致股價下跌,現金為上已成股民眾識”之類的長句子。抽取式方法有很大的局限性,如果處理的文本中缺失代表性的“關鍵句”,那抽取結果很可能毫無意義,尤其是對話類的文本。
發明內容
本申請提供了一種文摘自動提取方法、裝置、計算機設備及存儲介質,旨在解決現有技術中采用抽取式方法提取文章中的文摘僅適用于新聞、議論文等在文中出現總結性長句子的文體,對無關鍵句的文本提取摘要提取結果不準確的問題。
第一方面,本申請提供了一種文摘自動提取方法,其包括:
依序獲取目標文本所包括的字符,將字符按順序輸入至LSTM模型中的第一層LSTM結構進行編碼,得到隱含狀態組成的序列;其中LSTM模型為長短記憶神經網絡;
將隱含狀態組成的序列輸入至LSTM模型中的第二層LSTM結構進行解碼,得到摘要的字詞序列;
將摘要的字詞序列輸入至LSTM模型中的第一層LSTM結構進行編碼,得到更新后隱含狀態組成的序列;
根據更新后隱含狀態組成的序列中編碼器隱藏狀態的貢獻值,獲取與編碼器隱藏狀態的貢獻值相對應的上下文向量;
根據更新后隱含狀態組成的序列及上下文向量,獲取更新后隱含狀態組成的序列中字詞的概率分布,將字詞的概率分布中概率最大的字詞輸出作為目標文本的摘要。
第二方面,本申請提供了一種文摘自動提取裝置,其包括:
第一輸入單元,用于依序獲取目標文本所包括的字符,將字符按順序輸入至LSTM模型中的第一層LSTM結構進行編碼,得到隱含狀態組成的序列;其中LSTM模型為長短記憶神經網絡;
第二輸入單元,用于將隱含狀態組成的序列輸入至LSTM模型中的第二層LSTM結構進行解碼,得到摘要的字詞序列;
第三輸入單元,用于將摘要的字詞序列輸入至LSTM模型中的第一層LSTM結構進行編碼,得到更新后隱含狀態組成的序列;
上下文向量獲取單元,用于根據更新后隱含狀態組成的序列中編碼器隱藏狀態的貢獻值,獲取與編碼器隱藏狀態的貢獻值相對應的上下文向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810191506.3/2.html,轉載請聲明來源鉆瓜專利網。





