[發明專利]一種基于算法的文本摘要自動提取方法與系統有效
| 申請號: | 201710314598.5 | 申請日: | 2017-05-06 |
| 公開(公告)號: | CN107133213B | 公開(公告)日: | 2020-09-25 |
| 發明(設計)人: | 余珊珊;蘇錦鈿;連俊瑋 | 申請(專利權)人: | 廣東藥科大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/284;G06F40/289;G06F40/211;G06F40/30 |
| 代理公司: | 廣州科沃園專利代理有限公司 44416 | 代理人: | 張帥 |
| 地址: | 510006 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 算法 文本 摘要 自動 提取 方法 系統 | ||
1.一種基于算法的文本摘要自動提取方法,其特征在于,包含有以下步驟:
S1、對文本進行預處理,預處理的內容包括對文本進行分段、分句和分詞,還包括提取文本的篇章結構信息;
S2、對完成預處理的文本進行特征提取,提取特征的內容具體為:通過Doc2Vec算法及其相應的神經網絡模型學習每個句子中各個詞的詞向量及段落向量,使得每個句子對應于一個指定維度、且連續稠密的實數段落詞向量,將該實數段落詞向量作為句子的特征表示;
S3、完成特征提取后,采用現有的相似度計算方法對文本內句子間的相似度進行計算,計算過程中結合文本的篇章結構及句子的位置進行加權處理,完成結合了加權處理的相似度計算后得到文本的句子相似度矩陣;
S4、根據句子相似度矩陣,以文本中的各句子為節點、以句子間的相似關系為邊、以句子間的相似度為邊的權值構造無向加權TextRank網絡圖;通過迭代計算至收斂,得到包含權重值的各個節點;
S5、結合設定的摘要篇幅參數,根據對應于各個節點的句子的權重值、文本的篇章結構及句子的位置信息選擇核心句子,根據核心句子出現的先后順序進行排序后作為文本摘要的提取結果進行輸出;
S3中,計算相似度時進行加權處理的原則為:1)當句子與文本標題一致時,將該句子的相似度計算結果乘以2作為加權的結果;2)當句子與文本標題的相似度計算結果為0時,不對該句子的相似度計算結果進行加權;3)當句子與文本標題的相似度計算結果介于前面兩種情況之間時,采用以下式子對句子的相似度進行加權:
其中,P0h'和Pih'分別表示標題句子及第i個句子長度為h’的特征向量,sim表示兩個句子的特征向量的向量積計算結果;
4)對于文本中位于首段和末段的句子,根據正序和反序位置進行加權,加權系數的計算公式為:
其中,e1和e2均為大于0小于1的設定閾值,s和r為首段和末段的句子數量;5)對于關鍵句子的權重放大1.1倍,關鍵句子為字數大于設定值、并且直接構成一個段落的句子;6)對于經預處理為空的句子,不進行加權。
2.如權利要求1所述的文本摘要自動提取方法,其特征在于,S1中,對文本進行分段、分句和分詞的方式具體為:對文本中的每個句子進行編號,根據標點符號對文本進行分段和分句,根據編碼及分詞工具對文本進行分詞。
3.如權利要求2所述的文本摘要自動提取方法,其特征在于,S1中,對文本進行預處理的內容還包括:對文本進行標點符號過濾、縮寫補齊和刪除空格。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東藥科大學,未經廣東藥科大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710314598.5/1.html,轉載請聲明來源鉆瓜專利網。





