日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種信息媒介的專題階段性摘要的生成方法有效

專利信息
申請號: 201510366843.8 申請日: 2015-06-29
公開(公告)號: CN105005590B 公開(公告)日: 2019-02-22
發明(設計)人: 張仰森;尤建清 申請(專利權)人: 北京信息科技大學
主分類號: G06F16/35 分類號: G06F16/35
代理公司: 北京遠創理想知識產權代理事務所(普通合伙) 11513 代理人: 衛安樂
地址: 100192 北*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 信息媒介 主題集 文檔 話題檢測 生成信息 主題抽取 時間段 聚類 媒介 追蹤 話題
【權利要求書】:

1.一種信息媒介的專題階段性摘要的生成方法,其特征在于,包括步驟:

S1:獲取特定時間段內的各信息媒介的文檔;

本步驟中,用于在一個時間段內獲取各種信息媒介的文檔,以便于進行生成主題集;

S2:對所述各信息媒介的文檔進行主題抽取并生成主題集;

S3:對生成的所述主題集利用話題檢測與追蹤技術進行話題聚類并生成信息媒介專題的階段性摘要;

其中,在步驟S2中,所述對所述各信息媒介的文檔進行主題抽取并生成主題集的步驟包括:

計算各信息媒介的文檔中句子的度中心性;

計算信息媒介的句子的位置信息;

結合句子的度中心性和位置信息完成對信息媒介主題的抽取;

所述生成信息媒介專題的階段性摘要的步驟包括:

對所述生成的主題集進行基于時間流的雙向聚類;

對經過雙向聚類生成的話題進行差集或交集分析以提取共同關注的話題和新產生的話題;

對聚類生成的重復的話題進行二次聚類生成所述信息媒介專題的階段性摘要;

通過步驟S1、S2和S3,在完成對新聞專題某時間段的新聞文檔集的各文檔進行主題抽取之后,文檔集就轉換成了主題集,以及對其進行基于時間流的Single Pass雙向聚類和二次聚類完成生成新聞專題的階段性摘要;

步驟S3中輸入的數據為:按照時間順序的新聞專題的某時間段文檔集對應的主題集,表示為T={t1,t2,…,ti,…,tn},其中,ti表示編號為i的文檔的主題信息;聚類的閾值threshold以及判斷一個類別能否真正成為話題類的成類閾值

步驟S3中輸出的數據為:新聞專題在該時間段的階段性摘要;

步驟S3具體為:

⑴如果主題集T中第一篇文檔的主題信息t1和最后一篇文檔的主題信息tn的相似度大于等于預先設定的聚類閾值threshold,返回tn作為最終摘要,聚類結束;

⑵雙向聚類初始化:對于正向聚類,Cf1={t1},Cf={Cf1},Tf=T-{t1}={t2,…,tn};對于逆向聚類,Cb1={tn},Cb={Cb1},Tb=逆序(T)-{tn}={tn-1,…,t1};初始化的作用是,根據聚類方向將該方向上的第一個文檔的主題信息預設為第一個話題,同時將余下的主題集作為待聚類的信息;

⑶正向聚類,并迭代;

①對集合Tf中的每一個ti,逐一計算ti與Cf中所有類別的相似度,得到最大值maxSim;如果maxSim大于等于threshold,則將ti劃入maxSim對應的類,并更新該類別的中心;否則創建新類Cfk={ti};更新Tf,即將已聚類的主題信息ti從Tf中刪去;更新Cf,即將新類別Cfk加入到Cf;

②更新迭代次數;并再次聚類直至迭代次數為0;

③正向聚類結束,得到Cf,并刪去Cf中文檔數小于成類閾值的類別,其中,設定成類閾值為該階段新聞文檔總數的10%;

⑷逆向聚類,并迭代;

①依次對集合Tb中的每一個ti,逐一計算ti與Cb中所有類別的相似度,得到最大值maxSim;如果maxSim大于等于threshold,則將ti劃入maxSim對應的類,并更新該類別的中心;否則創建新類Cbk={ti};更新Tb,更新Cb;

②更新迭代次數;并再次聚類直至迭代次數為0;

③逆向聚類結束,得到Cb,并刪去Cb中文檔數小于成類閾值的類別;

⑸主題交集再聚類;令TS=∪(Cfm∩Cbn),其中Cfm和Cbn分別指Cf和Cb中的任一話題類別,TS表示正逆向聚類結果中被重復聚類的主題集合,對應于T中的已經存在的、被共同關注的重要話題;直接計算TS的質心,然后按照時間順序依次計算該集合的每條主題信息與質心的相似度,如果大于threshold,將該主題信息劃入再聚類的類別CS中,否則從TS刪去該主題信息;直至TS為空,再聚類結束并得到最終的CS

⑹階段性摘要生成;對CS類中取距離類中心最近的三個新聞文檔,對Cf和Cb的每個類分別取距離類中心最近的一個新聞文檔,將這些文檔的主題按照時間次序生成新聞的階段性摘要;

其中,步驟(5)中,TS的獲取過程為:經過第一次的雙向聚類后,分別得到一些正逆向的聚類結果;但由于Single Pass算法的單向性,對于任一方向上的聚類,每條主題信息要么被成功聚類且只在該方向的某個類別中出現一次,要么聚類不成功根本不會出現在該方向上的任一類別中,正逆向皆是如此,因此直接統計正逆向聚類結果中的所有主題信息,同時出現在正向類別和逆向類別中的主題信息的被直接劃分到集合TS中。

2.根據權利要求1所述的信息媒介的專題階段性摘要的生成方法,其特征在于,所述信息媒介的文檔中句子的度中心性的計算依據如下公式:

其中,si、sj是待計算相似度的兩個句子,wk是第k個詞在句子si中的tfidf值,wjk是第k個詞在句子sj的tfidf值,Sim(si,sj)是句子si與句子sj的相似度,所述信息媒介的文檔中句子的度中心性為句子與其他句子的相似度之和。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201510366843.8/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 欧美激情在线免费| 96国产精品视频| 香蕉av一区二区三区| 午夜爱爱电影| 亚洲欧洲国产伦综合| 国产精品6699| 国产精品高潮呻吟视频| 久久国产欧美一区二区免费| 午夜影院5分钟| 国产高清在线一区| 好吊妞国产欧美日韩免费观看网站| 亚洲欧美国产一区二区三区| 中文字幕制服狠久久日韩二区| 午夜精品一区二区三区aa毛片| 日本高清h色视频在线观看| 国产日韩欧美综合在线| 久久精品一| 99久久精品免费视频| 欧美日韩精品中文字幕| 综合久久色| 精品日韩久久久| 亚洲国产精品国自产拍久久| 91精品美女| 国产专区一区二区| 免费看农村bbwbbw高潮| 国产在线一区不卡| 欧美福利一区二区| 一区二区在线国产| 日韩亚洲精品在线| 午夜影院激情| 国产午夜精品一区理论片飘花 | 精品久久小视频| 91亚洲欧美强伦三区麻豆| 91麻豆精品一区二区三区| 国产区精品区| 国产精品国产三级国产播12软件| 日韩精品午夜视频| 丰满岳妇伦4在线观看| 999亚洲国产精| 视频一区二区三区欧美| 国内精品久久久久影院日本| 爱看av在线入口| 国产女人好紧好爽| 日本看片一区二区三区高清| 免费毛片a| 一区精品二区国产| 久久国产视屏| 国产理论一区二区三区| 精品日韩久久久| 国产呻吟高潮| www.日本一区| 日韩一级片在线免费观看| 日本精品一二区| 91国产一区二区| 日本一级中文字幕久久久久久| 欧美一区二区三区黄| 国产亚洲精品久久久久动| 91精品视频一区二区三区| 欧美一区二区三区久久久精品| 国产精品视频一二区| ass美女的沟沟pics| 欧美日韩国产区| 99精品小视频| 国产一区观看| 午夜裸体性播放免费观看| 中文字幕区一区二| 91国偷自产中文字幕婷婷| 狠狠色噜噜狠狠狠狠69| 国模精品免费看久久久| 亚洲精品久久久久中文字幕欢迎你 | 狠狠色噜噜狠狠狠狠综合久| 国产经典一区二区三区| 91丝袜国产在线播放| 999亚洲国产精| 一区二区三区欧美视频| 国产精选一区二区| 波多野结衣女教师电影| 国产三级国产精品国产专区50| 日韩精品一区二区中文字幕| 午夜影院黄色片| 国产999精品视频| 欧美精选一区二区三区|