[發(fā)明專利]一種基于語篇結(jié)構(gòu)的層次文本摘要獲取方法、系統(tǒng)、終端設(shè)備及可讀存儲(chǔ)介質(zhì)有效
| 申請?zhí)枺?/td> | 202110279942.8 | 申請日: | 2021-03-16 |
| 公開(公告)號(hào): | CN113157907B | 公開(公告)日: | 2022-05-03 |
| 發(fā)明(設(shè)計(jì))人: | 埃比;段俊文;王建新;劉姝玥 | 申請(專利權(quán))人: | 中南大學(xué) |
| 主分類號(hào): | G06F16/34 | 分類號(hào): | G06F16/34;G06F40/126;G06F40/146;G06F40/211;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 長沙市融智專利事務(wù)所(普通合伙) 43114 | 代理人: | 姚瑤 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 結(jié)構(gòu) 層次 文本 摘要 獲取 方法 系統(tǒng) 終端設(shè)備 可讀 存儲(chǔ) 介質(zhì) | ||
本發(fā)明公開了一種語篇結(jié)構(gòu)的層次文本摘要獲取方法、系統(tǒng)、終端設(shè)備及可讀存儲(chǔ)介質(zhì),所述方法包括:步驟1:將待處理的文檔中句子的單詞編碼成詞向量,并針對每個(gè)句子,利用Bi?LSTM模型以及自注意力機(jī)制構(gòu)建句子編碼器得到句子向量;步驟2:針對待處理的文檔,利用Bi?LSTM模型以及自注意力機(jī)制構(gòu)建篇章編碼器得到篇章向量;步驟3:基于所述篇章向量對句子進(jìn)行分類得到候選句子;步驟4:將候選句子輸入基于RST構(gòu)建的摘要提取器提取出核心EDU,并將所有候選句子的核心EDU拼接為文本摘要;其中,將候選句子分割為文檔單元,再利用文本單元構(gòu)成語篇結(jié)構(gòu)的層次樹,層次樹的葉子節(jié)點(diǎn)EDU表示被分割的文檔單元。本發(fā)明引入自注意力機(jī)制以及語篇結(jié)構(gòu)提高了摘要提取的準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明屬于文本處理技術(shù)領(lǐng)域,具體涉及一種語篇結(jié)構(gòu)的層次文本摘要獲取方法、系統(tǒng)、終端設(shè)備及可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
由于互聯(lián)網(wǎng)上可用數(shù)據(jù)的數(shù)量正在迅速增加,出現(xiàn)了對有效摘要系統(tǒng)的需求,該摘要系統(tǒng)要能夠快速,高效地檢索重要信息。作為一種補(bǔ)救措施,文本摘要可通過在保留最重要的關(guān)鍵信息的同時(shí)生成源文本的簡短版本來解決信息過載問題。
文本摘要可以分為抽取式和生成式(AllahyariM,PouriyehS,AssefiM,SafaeiS,TrippeED,GutierrezJB,KochutK(2017)Textsummarizationtechniques:abriefsurvey.arXivpreprintarXiv:170702268)。抽取式摘要技術(shù)是從主要文本中提取最重要的短語,這些短語代表整個(gè)文本。因此,需要對句子之間的聯(lián)系有一個(gè)全面的了解,以產(chǎn)生高質(zhì)量的摘要(MunotN,GovilkarSS(2014)Comparativestudyoftextsummarizationmethods.InternationalJournalofComputerApplications102(12))。生成式摘要技術(shù)會(huì)生成原始文本中不存在的新單詞或短語(AllahyariM,PouriyehS,AssefiM,SafaeiS,TrippeED,GutierrezJB,KochutK(2017)Textsummarizationtechniques:abriefsurvey.arXivpreprintarXiv:170702268)。因此,與生成式方法相比,抽取式方法產(chǎn)生的摘要在語法和語言上的精確度要高得多(NallapatiR,ZhaiF,ZhouB(2016)Summarunner:Arecurrentneuralnetworkbasedsequencemodelforextractivesummarizationofdocuments)。相比之下,生成式方法的特征在于它們是通過模擬人類的總結(jié)方式去生成摘要的。最近提出了一些混合系統(tǒng),通過抽取和重寫符合摘要要求的句子來組合這兩種方法(GehrmannS,DengY,RushAM(2018)Bottom-upabstractivesummarization,XuJ,DurrettG(2019)Neuralextractivetextsummarizationwithsyntacticcompression)。但是,與其他非混合系統(tǒng)相比,這些方法無法達(dá)到所需的水平。
傳統(tǒng)的抽取式摘要系統(tǒng)基于復(fù)雜的特征提取方法來評估句子。這些特征用于摘要決策中,以選擇所提取特征所涵蓋的最相關(guān)的句子(BaralisE,CaglieroL,JabeenS,FioriA,ShahS(2013)Multi-documentsummarizationbasedontheyagoontology.
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中南大學(xué),未經(jīng)中南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110279942.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





