[發明專利]一種長篇章結構化文本摘要提取方法在審
| 申請號: | 201910957415.0 | 申請日: | 2019-10-10 |
| 公開(公告)號: | CN110781290A | 公開(公告)日: | 2020-02-11 |
| 發明(設計)人: | 楊理想;王云甘;周亞;黃家君;徐慧 | 申請(專利權)人: | 南京攝星智能科技有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/205;G06F40/253 |
| 代理公司: | 32341 南京中律知識產權代理事務所(普通合伙) | 代理人: | 沈振濤 |
| 地址: | 210000 江蘇省南京市經濟*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 摘要提取 篇章結構分析 文本 關系識別 領域文本 篇章結構 長文本 詞向量 多義詞 截取 單詞 嵌入 計算機 全局 | ||
本發明提供的長篇章結構化文本摘要提取方法,采用動態詞嵌入方法可以根據周圍單詞動態地獲取詞向量,解決了文本中的多義詞問題;采用篇章結構分析,根據句間的關系識別結果合理劃分段落,讓計算機從全局角度理解文本;采用基于模型和規則的摘要提取是在篇章結構分析的基礎上對每一段進行摘要提取的,既解決了傳統長文本摘要直接截取的問題;又解決了多領域文本摘要提取問題。
技術領域
本發明屬于自然語言處理技術領域,特別涉及一種長篇章結構化文本摘要提取方法。
背景技術
目前長文本在進行摘要提取時一般涉及詞嵌入、文本摘要提取、篇章結構分析三部分的處理,對于詞嵌入,是將文本數據中的詞轉化為機器可以學習的數值向量,傳統的詞嵌入是先對文本中的詞采用one-hot編碼,再放入Word2Vec模型中進行學習,最終完成從文本到數值向量的映射,該方法簡單高效,但無法解決多義詞問題,因為Word2Vec下的每個字/詞只有一個固定表示,且字/詞的出現與上下文無關。
文本摘要提取是機器通過對文本特征學習,提取文中重要的句子作為該文本摘要的過程,其實際也是一個分類問題,即對文本句子作重要與否的二分類處理,其中重要的句子則是該文本摘要。目前主流的文本摘要提取方法是基于神經網絡模型,其主要分編碼與解碼兩個部分。編碼過程是機器對文本特征學習的過程,其中包括句子編碼、位置編碼、文章編碼等,方法有CNN、RNN、BERT等;解碼過程主要是分類過程,依據編碼的輸出結果和給定的標簽,完成分類器的訓練。
但是目前文本摘要提取主要存在以下問題:(1)現有摘要提取模型在編碼過程中并未很好的解決長文本問題,對于長文本問題現有技術主要采用的是直接截斷的方法,再對截斷后的數據進行編碼操作,如此操作會極大可能丟失長文本中的重要信息;也有技術是在編碼時加入段落與段落之間的編碼表示,該技術存在一定的局限性,例如輸入的文本并未分段,或者相鄰段落之間無相關關系。(2)現公開用于中文摘要提取的數據所涉領域單一,且單個數據文本較短,該數據用于對特殊領域的長文本摘要提取訓練任務并不友好。
篇章結構分析是用于識別不同文本塊之間的語義關系,可以從全局角度理解文本,進而能進一步優化文本自動摘要提取,目前研究人員將將篇章結構分析又分為顯式結構分析與隱式結構分析,其中顯式結構分析是對存在顯式連接詞的篇章進行結構分析,這類篇章相比較沒有連接詞的篇章在結構分析中容易。在針對長文本的自動摘要提取系統中,對篇章結構分析識別文本中句間因果,轉折等關系,竟而區分主次關系,相較于直接截取長文本的方法,該方法更適合對長文本進行摘要提取。
目前篇章分析存在的問題有如下幾點:對于沒有篇章連接詞的情況下如何對篇章結構進行分析?對篇章結構的分析如何應用到下游的自動摘要抽取具體任務中?綜合上述的現狀,仍然存在很多問題需要解決。
發明內容
為了解決上述現狀中存在的多義詞問題、長文本摘要提取中采用直接截斷,無篇章結構分析問題及多領域下的長文本摘要提取問題,本發明提供了一種長篇章結構化文本摘要提取方法,步驟為:
(1)轉化為數值信息
對輸入的長文本信息進行按標點符號進行分句處理,對每一句采用Bert WordEmbedding動態詞嵌入處理轉換成該句的向量矩陣,即計算機學習的數值信息;
(2)篇章結構分析
對每兩句進行隱式篇章關系分析,即將每兩個相鄰子句放入兩個雙向GRU模型中進行處理,對兩個模型的隱藏層信息進行拼接,將拼接后的結果放入多層感知機中進行分類,得到預測的類別概率,取概率最高的類別標簽作為對應標簽,并依據識別的標簽類別對長文本進行合理分段;
(3)摘要提取
按照基于模型和規則兩種方式對步驟(2)中分好的每個段落進行摘要提取,最終的摘要結果輸出是融合了這兩種方式的輸出結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京攝星智能科技有限公司,未經南京攝星智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910957415.0/2.html,轉載請聲明來源鉆瓜專利網。





