[發明專利]一種基于語篇結構的層次文本摘要獲取方法、系統、終端設備及可讀存儲介質有效
| 申請號: | 202110279942.8 | 申請日: | 2021-03-16 |
| 公開(公告)號: | CN113157907B | 公開(公告)日: | 2022-05-03 |
| 發明(設計)人: | 埃比;段俊文;王建新;劉姝玥 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/126;G06F40/146;G06F40/211;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 長沙市融智專利事務所(普通合伙) 43114 | 代理人: | 姚瑤 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 結構 層次 文本 摘要 獲取 方法 系統 終端設備 可讀 存儲 介質 | ||
1.一種語篇結構的層次文本摘要獲取方法,其特征在于:包括如下步驟:
步驟1:將待處理的文檔中句子的單詞編碼成詞向量,并針對每個句子,利用Bi-LSTM模型以及自注意力機制構建句子編碼器得到句子向量;
步驟2:針對待處理的文檔,利用Bi-LSTM模型以及自注意力機制構建篇章編碼器得到篇章向量;
步驟3:基于所述篇章向量對句子進行分類得到候選句子;
步驟4:將候選句子輸入基于RST構建的摘要提取器提取出核心EDU,并將所有候選句子的核心EDU拼接為文本摘要;
其中,將候選句子分割為文檔單元,再利用文本單元構成語篇結構的層次樹,層次樹的葉子節點EDU表示被分割的文檔單元;
步驟4中將候選句子輸入基于RST構建的摘要提取器提取出核心EDU的過程如下:
步驟4-1:將候選句子分割為文檔單元,再利用文本單元構成語篇結構的層次樹;
每個文檔單元分別作為層次樹的葉子節點EDU;
步驟4-2:將每個EDU對應的文檔單元中的單詞分別與POS標簽的神經嵌入級進行聯合計算得到單詞在EDU中的嵌入位置進而得到嵌入位置向量
表示在EDU中嵌入字詞的位置,pi為POS標簽,是異或運算符號,EDU對應的文檔單元中單詞集合表示為{w1,w2,..wp},wj為單詞集合中第j個單詞,p為文檔單元中單詞個數,emb為詞嵌入公式符號;
步驟4-3:將步驟4-2中的嵌入位置向量輸入bi-LSTM層得到單詞向量再以平均池化計算得到EDU的另一表達Ede;
式中,為單詞向量中第j個單詞向量;
步驟4-4:將候選句子對應的所有EDU的另一表達Ede輸入bi-LSTM層得到
其中,q為候選句子對應的EDU個數;
步驟4-5:依據步驟4-1中的層次樹以及所有EDU對應的計算出每個EDU的得分,按照如下公式計算:
其中,S為EDU的得分,為構建層次樹中,EDU對應的前1、x+1個子樹的解析表達,W為模型參數,為緊接編碼器輸出得到的隱層向量,子樹的解析表達通過平均池化得到:
其中,第x+1個子樹的解析表達中的所有EDU表示為:(ei,ei+1,...,ej),等于第x+1個子樹中EDU對應在的值;
步驟4-6:依據每個EDU的得分選擇核心EDU,其中,得分越高,對應EDU越重要;
步驟1中利用Bi-LSTM模型以及自注意力機制構建句子編碼器得到句子向量的過程如下:
步驟1-1:將句子中單詞的詞向量輸入Bi-LSTM模型獲取句子的正向和反向向量,并作為LSTM的隱層狀態;
步驟1-2:利用自注意力機制將步驟1-1中LSTM的隱層狀態作為輸入變量,得到權重向量,再結合步驟1-1中的所述LSTM的隱層狀態與所述權重向量得到句子向量;
si=vsHs
si為第i個句子的句子向量,vs為權重向量,Hs為步驟1-1中LSTM的隱層狀態;
所述權重向量vs表示為:
其中,softmax()是將注意力權重標準化為1的函數,tanh表示激活函數,ls、ws均為可學習參數,T為矩陣的轉置符號;
步驟2中利用Bi-LSTM模型以及自注意力機制構建篇章編碼器得到篇章向量的過程如下:
步驟2-1:輸入步驟1中的句子向量至Bi-LSTM模型獲取文檔篇章的正向和反向向量,并作為LSTM的隱層狀態;
步驟2-2:利用自注意力機制將步驟2-1中的LSTM的隱層狀態作為輸入變量,得到權重向量,再結合步驟2-1中的所述LSTM的隱層狀態與權重向量得到篇章向量;
d=vdHd
d為篇章向量,vd為權重向量,Hd為步驟2-1中的LSTM的隱層狀態;
所述權重向量vd表示為:
其中,softmax()是將注意力權重標準化為1的函數,tanh是激活函數,ld、wd均為可學習參數,T為矩陣的轉置符號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110279942.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:混合流渦輪核心
- 下一篇:一種鉸接轉向分布式電驅動轉向控制方法、系統及裝載機





