[發明專利]一種信息媒介的專題階段性摘要的生成方法有效
申請號: | 201510366843.8 | 申請日: | 2015-06-29 |
公開(公告)號: | CN105005590B | 公開(公告)日: | 2019-02-22 |
發明(設計)人: | 張仰森;尤建清 | 申請(專利權)人: | 北京信息科技大學 |
主分類號: | G06F16/35 | 分類號: | G06F16/35 |
代理公司: | 北京遠創理想知識產權代理事務所(普通合伙) 11513 | 代理人: | 衛安樂 |
地址: | 100192 北*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 信息媒介 主題集 文檔 話題檢測 生成信息 主題抽取 時間段 聚類 媒介 追蹤 話題 | ||
1.一種信息媒介的專題階段性摘要的生成方法,其特征在于,包括步驟:
S1:獲取特定時間段內的各信息媒介的文檔;
本步驟中,用于在一個時間段內獲取各種信息媒介的文檔,以便于進行生成主題集;
S2:對所述各信息媒介的文檔進行主題抽取并生成主題集;
S3:對生成的所述主題集利用話題檢測與追蹤技術進行話題聚類并生成信息媒介專題的階段性摘要;
其中,在步驟S2中,所述對所述各信息媒介的文檔進行主題抽取并生成主題集的步驟包括:
計算各信息媒介的文檔中句子的度中心性;
計算信息媒介的句子的位置信息;
結合句子的度中心性和位置信息完成對信息媒介主題的抽取;
所述生成信息媒介專題的階段性摘要的步驟包括:
對所述生成的主題集進行基于時間流的雙向聚類;
對經過雙向聚類生成的話題進行差集或交集分析以提取共同關注的話題和新產生的話題;
對聚類生成的重復的話題進行二次聚類生成所述信息媒介專題的階段性摘要;
通過步驟S1、S2和S3,在完成對新聞專題某時間段的新聞文檔集的各文檔進行主題抽取之后,文檔集就轉換成了主題集,以及對其進行基于時間流的Single Pass雙向聚類和二次聚類完成生成新聞專題的階段性摘要;
步驟S3中輸入的數據為:按照時間順序的新聞專題的某時間段文檔集對應的主題集,表示為T={t1,t2,…,ti,…,tn},其中,ti表示編號為i的文檔的主題信息;聚類的閾值threshold以及判斷一個類別能否真正成為話題類的成類閾值
步驟S3中輸出的數據為:新聞專題在該時間段的階段性摘要;
步驟S3具體為:
⑴如果主題集T中第一篇文檔的主題信息t1和最后一篇文檔的主題信息tn的相似度大于等于預先設定的聚類閾值threshold,返回tn作為最終摘要,聚類結束;
⑵雙向聚類初始化:對于正向聚類,Cf1={t1},Cf={Cf1},Tf=T-{t1}={t2,…,tn};對于逆向聚類,Cb1={tn},Cb={Cb1},Tb=逆序(T)-{tn}={tn-1,…,t1};初始化的作用是,根據聚類方向將該方向上的第一個文檔的主題信息預設為第一個話題,同時將余下的主題集作為待聚類的信息;
⑶正向聚類,并迭代;
①對集合Tf中的每一個ti,逐一計算ti與Cf中所有類別的相似度,得到最大值maxSim;如果maxSim大于等于threshold,則將ti劃入maxSim對應的類,并更新該類別的中心;否則創建新類Cfk={ti};更新Tf,即將已聚類的主題信息ti從Tf中刪去;更新Cf,即將新類別Cfk加入到Cf;
②更新迭代次數;并再次聚類直至迭代次數為0;
③正向聚類結束,得到Cf,并刪去Cf中文檔數小于成類閾值的類別,其中,設定成類閾值為該階段新聞文檔總數的10%;
⑷逆向聚類,并迭代;
①依次對集合Tb中的每一個ti,逐一計算ti與Cb中所有類別的相似度,得到最大值maxSim;如果maxSim大于等于threshold,則將ti劃入maxSim對應的類,并更新該類別的中心;否則創建新類Cbk={ti};更新Tb,更新Cb;
②更新迭代次數;并再次聚類直至迭代次數為0;
③逆向聚類結束,得到Cb,并刪去Cb中文檔數小于成類閾值的類別;
⑸主題交集再聚類;令TS=∪(Cfm∩Cbn),其中Cfm和Cbn分別指Cf和Cb中的任一話題類別,TS表示正逆向聚類結果中被重復聚類的主題集合,對應于T中的已經存在的、被共同關注的重要話題;直接計算TS的質心,然后按照時間順序依次計算該集合的每條主題信息與質心的相似度,如果大于threshold,將該主題信息劃入再聚類的類別CS中,否則從TS刪去該主題信息;直至TS為空,再聚類結束并得到最終的CS;
⑹階段性摘要生成;對CS類中取距離類中心最近的三個新聞文檔,對Cf和Cb的每個類分別取距離類中心最近的一個新聞文檔,將這些文檔的主題按照時間次序生成新聞的階段性摘要;
其中,步驟(5)中,TS的獲取過程為:經過第一次的雙向聚類后,分別得到一些正逆向的聚類結果;但由于Single Pass算法的單向性,對于任一方向上的聚類,每條主題信息要么被成功聚類且只在該方向的某個類別中出現一次,要么聚類不成功根本不會出現在該方向上的任一類別中,正逆向皆是如此,因此直接統計正逆向聚類結果中的所有主題信息,同時出現在正向類別和逆向類別中的主題信息的被直接劃分到集合TS中。
2.根據權利要求1所述的信息媒介的專題階段性摘要的生成方法,其特征在于,所述信息媒介的文檔中句子的度中心性的計算依據如下公式:
其中,si、sj是待計算相似度的兩個句子,wk是第k個詞在句子si中的tfidf值,wjk是第k個詞在句子sj的tfidf值,Sim(si,sj)是句子si與句子sj的相似度,所述信息媒介的文檔中句子的度中心性為句子與其他句子的相似度之和。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510366843.8/1.html,轉載請聲明來源鉆瓜專利網。