[發明專利]一種基于閾值去噪的TextRank文檔摘要方法及裝置有效
| 申請號: | 201710807801.2 | 申請日: | 2017-09-08 |
| 公開(公告)號: | CN107766419B | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 蔡毅 | 申請(專利權)人: | 廣州汪汪信息技術有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/33;G06F40/211 |
| 代理公司: | 廣州市越秀區哲力專利商標事務所(普通合伙) 44288 | 代理人: | 李天星;彭成 |
| 地址: | 510000 廣東省廣州市天*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 閾值 textrank 文檔 摘要 方法 裝置 | ||
本發明公開了一種基于閾值去噪的TextRank文檔摘要方法,包括以下步驟:根據獲取到的第一文檔語句構建第一圖模型;通過TextRank算法對所有第一文檔語句的進行迭代計算以得每條第一文檔語句對應的第一TR值將所有的第一TR值與預設閾值進行大小比對,并將所有小于預設閾值的第一TR值對應的第一文檔語句從第一圖模型中除去以得第二圖模型;并選取若干條第二TR值最高的第二文檔語句以形成文檔摘要。本發明還提供了一種基于閾值去噪的TextRank文檔摘要裝置。本發明的基于閾值去噪的TextRank文檔摘要的方法能夠有效的排除文檔中的干擾項,提高權重值的分配準確度,從而提高所生成的摘要的質量。
技術領域
本發明涉及一種數據挖掘技術領域,尤其涉及一種基于閾值去噪的TextRank文檔摘要方法及裝置。
背景技術
現今時代互聯網發展迅速,信息急劇膨脹,充斥著人們的生活,帶來了極大的便利,人們足不出戶便可以了解時事,查找自己所需要的資源和信息。但與此同時,面對新聞網站上紛亂繁雜的原始新聞,為了能夠跟上信息更新的速度,將新聞事件報道進行匯總精簡、提煉出其中的關鍵信息,滿足快速獲取知識的要求成為一個亟待解決的問題。為了解決這一問題,文檔自動摘要方法伴隨需求而得到發展。近年來,基于圖的排序算法已經被應用到文檔摘要中,其中應用最為廣泛的是Mihalcea和Tarau提出的TextRank模型,它是基于圖的摘要模型,其涉及到的背景知識如下:
1.PageRank
PageRank(網頁排名)利用網頁的鏈接結構構建Web圖模型,從客觀上評估網頁的相對重要性,有效地衡量用戶對網頁的興趣和關注程度。它的基本思想是,一個網頁的重要程度取決于鏈接到該網頁的網頁數量以及這些網頁的重要程度。PageRank應用了兩個假設:數量假設和質量假設。數量假設是指在Web圖模型中,一個網頁所擁有的指向自己的其他網頁的數量越多,則該網頁的重要程度越高;質量假設是指質量或重要程度越高的網頁指向某個網頁時,被指向的網頁重要程度越高。
PageRank采用投票或推薦機制,即每一個網頁會將自己的PR值平均地分配給自己所指向的網頁。令G=(V,E)表示由頂點集合V和邊集合E組成的圖,V中每個頂點表示一個網頁,網頁Vi指向網頁Vj通過E中以頂點Vi為起點、Vj為終點的邊來表示;In(Vi)表示以頂點Vi為終點的入邊集合,Out(Vi)表示以頂點Vi為起點的出邊集合。網頁Vi的重要程度定義如下:
其中|Out(Vj)|表示頂點Vj的出度。
以一個例子來說明以上定義。如圖1所示,其中PR值為100的網頁指向了PR值為53和50的兩個網頁,則它會將自己的PR值平均分配給這兩個網頁,而這兩個網頁又會將自己的PR值平均分配給它們各自所指向的網頁,這是一個反復迭代的過程,最終網頁的PR值會趨向于正常和穩定。如圖2所示,經過反復迭代后,網頁的PR值已經收斂。
上述公式存在一個問題:在現實情況中,存在著一些網頁,它們彼此互相鏈接,而沒有指向其他網頁的鏈接,這就會導致鏈接只在一個集合內部旋轉,而不指向外界的現象,如圖3所示。這種封閉的情況稱為Rank Sink。因此,需要進行修正。實際上,用戶在瀏覽網頁時,如果他發現一直在同樣的幾個網頁中徘徊時,那么他會離開當前頁面,重新打開一個新的網頁;用戶也不會一直都順著當前頁面的鏈接前進,也可能會跳躍到完全無關的頁面里。基于這一思想,PageRank在上述公式的基礎上加入了阻尼系數(damping factor)α,得到如下公式:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州汪汪信息技術有限公司,未經廣州汪汪信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710807801.2/2.html,轉載請聲明來源鉆瓜專利網。





