[發明專利]一種基于算法的文本摘要自動提取方法與系統有效
| 申請號: | 201710314598.5 | 申請日: | 2017-05-06 |
| 公開(公告)號: | CN107133213B | 公開(公告)日: | 2020-09-25 |
| 發明(設計)人: | 余珊珊;蘇錦鈿;連俊瑋 | 申請(專利權)人: | 廣東藥科大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/284;G06F40/289;G06F40/211;G06F40/30 |
| 代理公司: | 廣州科沃園專利代理有限公司 44416 | 代理人: | 張帥 |
| 地址: | 510006 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 算法 文本 摘要 自動 提取 方法 系統 | ||
本發明公開了一種基于算法的文本摘要自動提取方法,涉及文本提取的技術領域,包含有以下步驟:S1、對文本進行預處理;S2、對文本進行特征提?。籗3、采用現有的相似度計算方法對句子間的相似度進行計算,計算過程中進行加權處理;S4、以文本中的各句子為節點、以句子間的相似關系為邊、以相似度為邊的權值構造無向加權TextRank網絡圖;通過迭代計算至收斂,得到包含權重值的各個節點;S5、根據對應于各個節點的句子的權重值、文本的篇章結構及句子的位置信息選擇核心句子,核心句子排序后作為提取結果進行輸出。本發明還公開了摘要提取系統。本發明有利于提高文本摘要自動提取的準確率。
技術領域
本發明涉及文本提取的技術領域,具體涉及一種基于算法的文本摘要自動提取方法與系統。
背景技術
基于機器學習的文本摘要自動抽取是近年來文本挖掘研究領域的一個熱點,在搜索引擎、門戶網站、移動互聯網、信息檢索系統等領域有著非常廣闊的應用前景。利用計算機技術實現文本摘要的自動提取可以有效地挖掘和濃縮文本信息,減少用戶的閱讀時間,提升用戶體驗。
早期對文本摘要的自動提取主要采用基于規則或基于統計機器學習的方式。近年來,許多研究人員開始利用各種機器學習算法來研究高文本摘要自動提取,例如回歸模型(包括線性回歸或ELM回歸等)、LDA(Latent DirichletAllocation)模型、支持向量機SVM、LexRank算法,并結合語言學的一些相關研究成果進一步提高摘要提取的效果,如篇章結構、詞語權重、關鍵詞、主題模型等。由于線性回歸、ELM回歸和LDA等均為有監督的學習方法,因此容易受訓練樣本的影響,從而造成領域通用性較差,不適合用于海量文本的摘要提取。2004年Mihalcea和Tarau在Google公司PageRank算法的基礎上結合他們對自動摘要提取的研究,提出了無監督學習算法TextRank,其本質是根據句子間的相似關系來構建TextRank網絡圖,并將句子間的相似關系看成是一種推薦或投票關系。一些研究人員在Mihalcea和Tarau的工作基礎上,將TextRank應用于信息檢索、關鍵詞提取等方面,并取得了較好的效果。但這些工作中對文本的表示主要采用基于詞袋(bag-of-word)的方式,即one-of-V(其中V為詞典的大小),并且主要根據單詞之間的共現信息,而忽略了單詞的順序及其語義。例如,無法表達詞與詞之間的相似度(任何兩個不同詞語的向量內積均為0),而且容易導致詞語向量的維度過大。
中國專利申請CN104216875A公開了基于非監督關鍵二元詞串提取的微博文本自動摘要方法,包括:微博預處理;二元詞串標準化;基于混合TF-IDF、TextRank和LDA的關鍵二元詞串提?。换诮患嗨贫群突バ畔⒉呗缘木渥优判?;基于相似度閾值的摘要句抽??;以及合理組合摘要句以生成摘要。該專利申請仍然囿于傳統自動提取文本摘要的思維框架,不能解決維數災難等問題。
另一中國專利申請CN200710130576.X公開了一種數據處理裝置,包括:第一無監督學習處理單元、第二無監督學習處理單元和有監督學習處理單元。所述第一無監督學習處理單元根據無監督學習將第一數據組的數據分類,以便執行所述第一數據組的維度縮減,從而獲得第一分類數據組。所述第二無監督學習處理單元根據無監督學習將第二數據組的數據分類,以便執行所述第二數據組的維度縮減,從而獲得第二分類數據組。所述有監督學習處理單元利用所述第一無監督學習處理單元獲得的第一分類數據組和所述第二無監督學習處理單元獲得的第二分類數據組作為教師數據執行有監督學習,以便確定所述第一分類數據組和所述第二分類數據組之間的映射關系。該專利申請可縮減數據維度,但目前尚無能有效應用于文本摘要自動提取的方法或系統。
發明內容
針對現有技術的不足,本發明的目的旨在提供一種基于算法的文本摘要自動提取方法與系統,將Doc2Vec和TextRank算法結合應用于文本摘要自動提取中,提高文本摘要自動提取的準確度。
為實現上述目的,本發明采用如下技術方案:
一種基于算法的文本摘要自動提取方法,包含有以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東藥科大學,未經廣東藥科大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710314598.5/2.html,轉載請聲明來源鉆瓜專利網。





