[發明專利]一種新聞自動摘要方法及系統在審
| 申請號: | 202210744348.6 | 申請日: | 2022-06-28 |
| 公開(公告)號: | CN114996444A | 公開(公告)日: | 2022-09-02 |
| 發明(設計)人: | 劉軍;徐飛;彭佳佳;陳芾珩;贠曼 | 申請(專利權)人: | 中國人民解放軍63768部隊;西安工業大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/289;G06F40/216;G06F40/242;G06F40/30;G06F17/16 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 李鵬威 |
| 地址: | 710699 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 新聞 自動 摘要 方法 系統 | ||
本發明公開了一種新聞自動摘要方法及系統,基于MF?TextRank算法生成自動文本摘要模型為抽取式摘要,引入Word2vec模型進行文本語義表示,解決了矩陣稀疏和維數爆炸的問題,同時提高了語義表達程度;計算句子與標題的相似度,根據IF?IDF算法獲得新聞關鍵詞,計算句子中心性;結合標題特征,中心性特征以及句間相似度,通過實驗調整權重因子,迭代計算直至收斂,選取句子節點權重靠前的進行新聞摘要抽??;本文給出的方法更好的挖掘文本信息,不遺漏關鍵信息,充分利用領域信息,得到一個面向領域的冗余度低、可讀性較高的新聞摘要。
技術領域
本發明屬于自然語言處理技術領域,具體涉及一種新聞自動摘要方法及系統。
背景技術
隨著移動互聯網的迅速發展,信息呈現爆炸式的增長。但新聞網頁數量巨大、內容繁雜,需要大量的時間去閱讀和整理,相關業務部門如何高效的從新聞中獲取所需要的相關信息,成為目前急需解決的問題。
摘要概括了原文的核心觀點和主要內容。在很大程度上可以代替原始文本。為了有效提高相關業務部門閱讀新聞的效率,所以摘要生成成為必不可少的環節。然而傳統的摘要是通過人工總結,即消耗時間又消耗了人力資源。隨著計算機科學的發展,自動文本摘要的提出不僅能夠快速批量的生成摘要,同時也能高質量的捕獲原文的核心思想,提取有效信息。
目前文本自動摘要技術分為兩種,一種是抽取式的摘要,基于文本中的句子、詞語的統計特征和淺層次的語義理解,對文本中原始句子進行抽取,不進行修改,按照一定的規則形成摘要。該技術不需要訓練,摘要抽取速度快、效率比較高,在缺少高質量數據集的情況下也會取得較好的效果,但應用場景比較單一,不能滿足在多場景情況下用戶對高質量摘要的需求。另一種是生成式摘要,基于深度學習對文本進行理解和概括,進行再提煉生成摘要。雖然這種方法是通過理解文本內容,生成原文中不存在的詞匯,更加接近摘要的本質。但是需要大量的訓練數據調整參數優化模型,訓練數據決定了摘要生成的好壞,同時訓練時間較長。
基于圖模型的文本自動摘要是將文本中的句子作為圖的頂點,兩個相似的頂點用邊連接起來,構成拓撲排序圖,通過迭代計算,對句子進行評分,抽取摘要句。TextRank算法作為一種經典的圖排序算法,它利用文本本身的信息和結構特征來實現文本摘要的自動提取。汪旭陽等人認為傳統的TextRank算法未考慮到詞語的語義以及文本的全局信息,基于此提出了一種改進的TextRank算法。針對傳統的圖模型只考慮到文章淺層語義特征,羅芳等人提出了融合主題特征后的多維度的文本自動摘要方法MDSR,有效的提高了摘要抽取的準確性。朱玉佳等人在傳統的Text Rank算法上提出一個無監督的抽取式聯合打分,從兩方面將抽取到的摘要去除冗余,結果表明該算法有更好的梗概性和多樣性。余珊珊等人結合中文文本的結構特點,提出一種改進的iTextRank算法,通過將標題、段落、特殊句子等信息因為圖模型中給出相應的改進方法,提高了摘要抽取的準確率與更低的召回率。曹寧認為圖模型中句子權重和句子相似度計算仍有很大的改進空間,因此他針對這兩部分進行了改進。劉志明等人為了解決不同文檔以及內容特征等問題對摘要的影響,通過引入LDA模型獲得文本主題,然后進行句子主題分組,提出SE-TextRank算法。Fang等人提出將句子-詞匯與傳統的基于圖的無監督排序將結合。針對新聞文本的的自動摘要,李峰等人提出使用關鍵詞擴展的新聞文本自動摘要的方法,強化關鍵詞對于文摘句的指示作用,該方法在ROUGE測評中取得了較好的評分。程琨等人提出了基于最大邊緣相關得新聞摘要方法以及支持向量機和MMR相結合的新聞摘要方法,該模型更適用于生成對文本內容覆蓋相對全面的文摘。針對不同領域的文本摘要,可以通過分析原文的特征提高抽取式摘要的效果。
目前的抽取式摘要的研究通過圖模型和特征提取等方法,許多學者們也嘗試將這兩種方式結合起來進行摘要抽取。而面向新聞領域,大多數都忽略了領域知識以及新聞體裁的結構特征,容易遺漏一些重要信息,在摘要的覆蓋率和可讀性等方面都表現得不好,因此基于特定領域的抽取式摘要研究仍有很重要的意義。
發明內容
本發明的目的在于提供一種新聞自動摘要方法及系統,以克服現有技術的不足。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍63768部隊;西安工業大學,未經中國人民解放軍63768部隊;西安工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210744348.6/2.html,轉載請聲明來源鉆瓜專利網。





