[發明專利]一種基于圖模型的無監督自動文摘提取方法有效
| 申請號: | 201911321569.7 | 申請日: | 2019-12-20 |
| 公開(公告)號: | CN111177365B | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 趙衛東;陳曉露;王銘 | 申請(專利權)人: | 山東科技大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/30;G06K9/62 |
| 代理公司: | 青島智地領創專利代理有限公司 37252 | 代理人: | 種艷麗 |
| 地址: | 266590 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模型 監督 自動 文摘 提取 方法 | ||
1.一種基于圖模型的無監督自動文摘提取方法,其特征在于:包括如下步驟:
步驟1:對測試數據以及語料庫的文本進行預處理;
步驟2:使用TF-IDF模型,訓練得到樣本特征詞頻率和逆文檔頻率;
步驟3:將預處理后的文本和特征詞逆文檔頻率輸入到PV-IDF模型中,訓練得到樣本句子向量;
步驟4:利用步驟2得到的樣本特征詞頻率,結合句子位置和標題相似度,計算得到樣本句子綜合權重;
步驟5:利用步驟3訓練得到的樣本句子向量,計算得到樣本句子相似度矩陣ω,利用步驟4得到的樣本句子綜合權重,計算得到懲罰矩陣ω′ij;
步驟6:將步驟4得到的樣本句子綜合權重輸入TextRank圖模型中作為TextRank圖模型節點初始權重,樣本句子相似度矩陣ω作為TextRank圖模型連線權重;
步驟7:迭代TextRank圖模型得到權重最高的n個句子,作為候選文摘句;
步驟8:根據步驟5得到的懲罰矩陣ω′ij,對候選文摘句進行篩選,得到文摘句;
步驟9:將文摘句按照原文的語序輸出,并進行平滑處理。
2.根據權利要求1所述的基于圖模型的無監督自動文摘提取方法,其特征在于:在步驟1中,對文本進行預處理,主要包括:(1)去除文本中特殊符號、圖片、表格以及計算機語言無法識別的文字;(2)文本分割:將文本中句子進行分詞處理,并去除停用詞,得到有關鍵詞組成的文本句子集合和關鍵詞集;(3)將文本句子集合中的句子進行標號,并特殊標記文章中首段前三句和首段段尾句。
3.根據權利要求1所述的基于圖模型的無監督自動文摘提取方法,其特征在于:在步驟4中,具體包括如下步驟:
步驟4.1:根據公式(1)、(2),計算句子si基于標題的權重wt(si):
其中,σ表示基于標題的初始權重,t表示文章標題,π表示句子維數,wt表示標準化后基于標題的權重;
步驟4.2:根據公式(3),計算句子si基于關鍵詞的權重
其中,fk表示標號為k的關鍵詞在句子si中的頻率,rk表示特征詞的逆文檔頻率,T表示特征詞數量;
步驟4.3:根據公式(4),計算句子si基于位置的初始權重
步驟4.4:根據公式(5),計算樣本句子綜合權重:
其中,α、β、γ為比例參數,W(si)表示句子si的綜合權重。
4.根據權利要求3所述的基于圖模型的無監督自動文摘提取方法,其特征在于:在步驟5中,具體包括如下步驟:
步驟5.1:根據公式(6),計算樣本句子相似度矩陣ω:
其中,simij為文本句子集合中標號為i的詞和標號為j的句子相似度;
步驟5.2:根據句子初始權重和句子相似度矩陣,以及公式(7)所示的懲罰規則,得到包含刪除策略的由0和1組成的懲罰矩陣ω′ij;
5.根據權利要求4所述的基于圖模型的無監督自動文摘提取方法,其特征在于:在步驟8中,篩選策略如公式(8)所示:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東科技大學,未經山東科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911321569.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種面向數字字符的數據編碼方法、解析方法及系統
- 下一篇:一種智慧旅游系統





