[發(fā)明專利]一種基于多故事線的微博事件摘要提取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201610179286.3 | 申請(qǐng)日: | 2016-03-25 |
| 公開(公告)號(hào): | CN105787121B | 公開(公告)日: | 2018-08-14 |
| 發(fā)明(設(shè)計(jì))人: | 林鴻飛;劉龍飛 | 申請(qǐng)(專利權(quán))人: | 大連理工大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06Q50/00 |
| 代理公司: | 大連智高專利事務(wù)所(特殊普通合伙) 21235 | 代理人: | 蓋小靜 |
| 地址: | 116023 遼*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 故事 事件 摘要 提取 方法 | ||
1.一種基于多故事線的微博事件摘要提取方法,其特征在于,包括以下步驟:
S1、微博語料預(yù)處理:
采集包含所關(guān)注的微博事件的微博語料集,對(duì)所述微博語料集中的每條微博進(jìn)行分詞處理并去除標(biāo)點(diǎn)符號(hào)得到每條微博的微博詞語集,統(tǒng)計(jì)微博詞語集中的詞語個(gè)數(shù),將詞語個(gè)數(shù)少于第一預(yù)設(shè)閾值的微博及其微博詞語集刪除;將微博語料集中的剩余微博作為微博事件摘要提取集,提取微博事件摘要提取集中的每條微博的發(fā)布時(shí)間信息并對(duì)所述微博進(jìn)行編號(hào),將微博內(nèi)容、微博的發(fā)布時(shí)間、及微博編號(hào)存入字典數(shù)據(jù)庫(kù)中;
S2、微博矢量化:
利用詞嵌入技術(shù)將微博事件摘要提取集中每條微博所對(duì)應(yīng)的微博詞語集中的詞語表示為詞矢量的形式,得到每條微博所對(duì)應(yīng)的微博詞語矢量集;將每個(gè)微博詞語矢量集中的詞語矢量累加即得到每條微博的矢量表示;
S3、初步提取微博事件故事線:
A1、根據(jù)步驟S2得到的每條微博的矢量表示,隨機(jī)選取其中任一微博的矢量表示作為一條微博事件故事線;
A2、從剩余微博中任取一條微博,分別計(jì)算該微博與已有的微博事件故事線的矢量相似度并提取出矢量相似度最大的微博事件故事線作為最大相似微博事件故事線;若該微博與最大相似微博事件故事線的矢量相似度大于第一閾值,則將該微博的矢量表示歸入最大相似微博事件故事線中作為一條微博事件故事線,并將二者的矢量和作為該條微博事件故事線的矢量表示;若所述矢量相似度小于第一閾值,則將該微博作為新的微博事件故事線;
A3、重復(fù)步驟A2直至所有微博的矢量表示以微博事件故事線的形式輸出;
S4、故事線合并:
B1、對(duì)于步驟S3中得到的微博事件故事線,任取一條微博事件故事線作為一條合并故事線;
B2、從剩余的微博事件故事線中任取一條微博事件故事線,分別計(jì)算該微博事件故事線與已有的合并故事線的矢量相似度并提取出矢量相似度最大的合并故事線作為最大相似合并故事線;若該微博事件故事線與最大相似合并故事線的矢量相似度大于第二閾值,則將該微博事件故事線的矢量表示歸入最大相似合并故事線中作為一條合并故事線,并將二者的矢量和作為該合并故事線的矢量表示;若所述矢量相似度小于第二閾值,則隨機(jī)生成一實(shí)數(shù)r,其中,0〈=r〈=1,若r小于第二閾值,則將該微博事件故事線單獨(dú)作為一條合并故事線;否則,將該微博事件故事線歸入最大相似合并故事線中作為合并故事線,并將二者的矢量和作為該合并故事線的矢量表示;
B3、重復(fù)步驟B2,直至每條微博事件故事線以合并故事線的形式輸出;
S5、故事線重構(gòu):
將步驟S4獲得的每條合并后的故事線中所包含的微博按照時(shí)間順序進(jìn)行排列,選取每個(gè)預(yù)設(shè)時(shí)間段內(nèi)的代表性微博作為該故事線在每個(gè)時(shí)間段內(nèi)節(jié)點(diǎn)的內(nèi)容;選取代表性微博的方法如下:
提取每條故事線中發(fā)布時(shí)間在預(yù)設(shè)時(shí)間段內(nèi)的所有微博,作為代表性微博提取集,將所述代表性微博提取集中所有微博的矢量形式進(jìn)行加和得到所述代表性微博提取集的矢量表示;枚舉代表性微博提取集中的每一條微博,計(jì)算該微博與代表性微博提取集的矢量夾角余弦值作為代表性微博相似度,將所得到代表性微博相似度值降序排列,選取前K個(gè)代表性微博相似度值所對(duì)應(yīng)的微博作為該條故事線在預(yù)設(shè)時(shí)間段內(nèi)的節(jié)點(diǎn)內(nèi)容,其中K為自然數(shù);
S6、展示摘要結(jié)果:
利用Javascript在網(wǎng)頁(yè)上將每條合并后的故事線以線狀形式展示出來。
2.根據(jù)權(quán)利要求1所述的一種基于多故事線的微博事件摘要提取方法,其特征在于,步驟S1中第一預(yù)設(shè)閾值為5。
3.根據(jù)權(quán)利要求1所述的一種基于多故事線的微博事件摘要提取方法,其特征在于,步驟S3中,所述第一閾值為1/(1+n),n為當(dāng)前生成的微博事件故事線的數(shù)量。
4.根據(jù)權(quán)利要求1所述的一種基于多故事線的微博事件摘要提取方法,其特征在于,步驟S4中,所述第二閾值為1/(1+m),m為當(dāng)前生成的合并故事線的數(shù)量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連理工大學(xué),未經(jīng)大連理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610179286.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種事件通訊裝置及方法
- 動(dòng)態(tài)權(quán)重事件處理系統(tǒng)和方法
- 攻擊檢測(cè)裝置和攻擊檢測(cè)方法
- 基于Unity的事件管理方法及系統(tǒng)
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 熱點(diǎn)事件確定方法及裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種樹狀模型中節(jié)點(diǎn)的連接方法及其模型、計(jì)算機(jī)裝置和可讀存儲(chǔ)介質(zhì)
- 一種事件處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





