[發明專利]一種信息媒介的專題階段性摘要的生成方法有效
申請號: | 201510366843.8 | 申請日: | 2015-06-29 |
公開(公告)號: | CN105005590B | 公開(公告)日: | 2019-02-22 |
發明(設計)人: | 張仰森;尤建清 | 申請(專利權)人: | 北京信息科技大學 |
主分類號: | G06F16/35 | 分類號: | G06F16/35 |
代理公司: | 北京遠創理想知識產權代理事務所(普通合伙) 11513 | 代理人: | 衛安樂 |
地址: | 100192 北*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 信息媒介 主題集 文檔 話題檢測 生成信息 主題抽取 時間段 聚類 媒介 追蹤 話題 | ||
本發明提供一種信息媒介的專題階段性摘要的生成方法,包括獲取特定時間段內的各信息媒介的文檔;對所述信息媒介的文檔進行主題抽取并生成主題集,以及對所述主題集利用話題檢測與追蹤技術進行話題聚類,并生成信息媒介專題的階段性摘要,本發明實施例的信息媒介的專題階段性摘要的生成方法具有生成的專題階段性摘要有較好的召回率的優點。
技術領域
本發明涉及語言信息處理領域,特別是一種信息媒介的專題階段性摘要的生成方法。
背景技術
有統計顯示,通過網絡獲取資訊的網民數量正呈現出持續增長的趨勢,“上網看新聞”更是已經成為網民們的一種習慣。對于一些新聞專題來說,時間跨度較長,內容涉及方方面面,可能產生幾十篇甚至幾千篇的系列報道。以2014年3月8日發生的馬來西亞航空公司MH370航班“失聯”為例,在短短1個月的時間內,騰訊新聞網形成了70個頁面約計3500篇新聞(平均每日有100多篇)的專題報道,這其中還不包括各類的相關新聞評論!如此規模的專題報道,凸顯了網絡新聞的特點——多角度和全方位。但隨之而來的問題是,面對接踵而至的專題內容,新聞讀者卻難以抉擇,很難有足夠多的時間、并且也不可能去閱讀每一篇新聞的詳細內容,對新聞專題的相關內容了解不多,對整個專題的發展、演化只能望“聞”興嘆。
因此,如何設計一種能夠向網民準確的呈現信息媒介的專題階段性摘要的生成方法以方便網民根據專題階段性摘要從大量新聞中快速選擇新聞進行閱讀是業界亟需解決的課題。
發明內容
為了解決上述現有的技術問題,本發明提供一種信息媒介的專題階段性摘要的生成方法對所述信息媒介的文檔進行主題抽取并生成主題集,并對所述主題集利用話題檢測與追蹤技術進行話題聚類,以生成信息媒介專題的階段性摘要具有較好的召回率。
本發明提供一種信息媒介的專題階段性摘要的生成方法,包括步驟:
獲取特定時間段內的各信息媒介的文檔;
對所述各信息媒介的文檔進行主題抽取并生成主題集;
對所述主題集利用話題檢測與追蹤技術進行話題聚類,并生成信息媒介專題的階段性摘要。
優選地,所述對所述各信息媒介的文檔進行主題抽取并生成主題集的步驟包括:
計算各信息媒介的文檔中句子的度中心性;
計算信息媒介的句子的位置信息;
結合句子的度中心性和位置信息完成對信息媒介主題的抽取。
優選地,所述信息媒介的文檔中句子的度中心性的計算依據如下公式:
其中,si、sj是待計算相似度的兩個句子,wik是第k個詞在句子si中的tfidf值,wjk是第k個詞在句子sj的余弦相似度值。
優選地,所述計算信息媒介的句子的位置信息依據公式:
Loc(si)表示新聞句子的位置信息對主題抽取的加權。n表示每篇新聞文檔的句子總數。
優選地,所述結合句子的度中心性和位置信息完成對信息媒介主題的抽取依據如下公式:
ET(Si)=a∑Siml(si,sj)+bLoc(si)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510366843.8/2.html,轉載請聲明來源鉆瓜專利網。