[發(fā)明專利]一種應(yīng)用于閱讀機(jī)器人的摘要生成方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011264506.5 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112347753B | 公開(公告)日: | 2022-05-27 |
| 發(fā)明(設(shè)計(jì))人: | 關(guān)勇;李茹;郭少茹;譚紅葉;張虎 | 申請(專利權(quán))人: | 山西大學(xué) |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F16/34;G06F40/289;G06F40/30;G06N3/04 |
| 代理公司: | 太原申立德知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 14115 | 代理人: | 郭海燕 |
| 地址: | 030006*** | 國省代碼: | 山西;14 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 應(yīng)用于 閱讀 機(jī)器人 摘要 生成 方法 系統(tǒng) | ||
本發(fā)明公開了一種應(yīng)用于閱讀機(jī)器人的摘要生成方法及系統(tǒng);包括如下步驟:一、候選摘要抽取單元,在訓(xùn)練集中抽取與當(dāng)前文章最相似的文章的摘要作為候選摘要;二、框架選擇單元,使用框架關(guān)系、框架相似度兩種度量方法篩選出文章中的重要框架;三、框架編碼單元,獲取框架的向量表示;四、文章編碼單元,獲取文章的向量表示;五、框架與文章交互單元,計(jì)算框架與文章之間的相互影響,得到最終的文章表示;六、解碼單元,根據(jù)得到的文章表示生成摘要。本發(fā)明首次引入框架語義信息,將其融入到摘要生成模型中,計(jì)算了框架與文章之間的相互影響,有效的提升了摘要生成結(jié)果。本發(fā)明方法思路結(jié)構(gòu)清晰,效果明顯,可擴(kuò)展性強(qiáng)。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理研究領(lǐng)域,具體涉及一種應(yīng)用于閱讀機(jī)器人的摘要生成方法及系統(tǒng)。
背景技術(shù)
摘要是全面準(zhǔn)確地反映某一文本主要內(nèi)容的簡單連貫短文。自動文摘是利用計(jì)算機(jī)自動地從原始文本中提取摘要,旨在為用戶提供文本的簡短表示,方便用戶快速高效的獲取文本信息。該技術(shù)廣泛應(yīng)用于各大領(lǐng)域,如軍事、公共安全、企業(yè)、出版、醫(yī)療等。同時面對數(shù)據(jù)的爆炸式增長,文本摘要生成逐漸成為自然語言處理(NLP)方面的一個熱點(diǎn)。
文本摘要技術(shù)早期主要是一些基于特征的方法。Knight,K.;and Marcu,D.2002.Summarization beyond sentence extraction:A probabilistic approach tosentence compression.Artificial Intelligence 139(1):91–107.針對摘要生成問題,在解碼過程中,借助句法分析工具將文章解析為句法樹,然后對句法樹進(jìn)行排序和裁剪,得到最終的文本表示。Zhou,L.;and Hovy,E.2004.Template-filtered headlinesummarization.In Text Summarization Branches Out,56–60.針對標(biāo)題生成問題,構(gòu)建了大量的摘要模板及詞庫,使用不同的規(guī)則將詞庫中的詞填充到固定的模板中形成摘要。
近年來,隨著大規(guī)模數(shù)據(jù)集的涌現(xiàn)、高性能計(jì)算的快速發(fā)展,基于深度學(xué)習(xí)的文本摘要逐漸成為一個研究熱點(diǎn)?;谏窠?jīng)網(wǎng)絡(luò)的方法主要使用編碼-解碼結(jié)構(gòu),例如:Rush,A.M.;Chopra,S.;and Weston,J.2015.A Neural Attention Model for AbstractiveSentence Summarization.In Proceedings of the 2015Conference on EmpiricalMethods in Natural Language Processing,379–389.該論文使用了一種局部注意力機(jī)制,在生成文檔表示的時候考慮了當(dāng)前解碼狀態(tài)向量的影響。See,A.;Liu,P.J.;andManning,C.D.2017.Get to the point:Summarization with pointer-generatornetworks.arXiv preprint arXiv:1704.04368.針對摘要生成過程中的未登錄詞和重復(fù)問題,分別提出了拷貝機(jī)制和覆蓋機(jī)制,使得模型可以直接從原始輸入中復(fù)制重要的詞,同時防止重復(fù)問題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山西大學(xué),未經(jīng)山西大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011264506.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





