[發(fā)明專利]一種基于社會(huì)媒體的事件圖譜構(gòu)建方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810445536.2 | 申請(qǐng)日: | 2018-05-11 |
| 公開(公告)號(hào): | CN108763333B | 公開(公告)日: | 2022-05-17 |
| 發(fā)明(設(shè)計(jì))人: | 張日崇;馬宏遠(yuǎn);王飛;杜翠蘭;王玥;柳毅;李建欣;趙曉航;胡春明 | 申請(qǐng)(專利權(quán))人: | 北京航空航天大學(xué);國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心 |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36;G06F40/295 |
| 代理公司: | 北京中創(chuàng)陽光知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 社會(huì) 媒體 事件 圖譜 構(gòu)建 方法 | ||
1.一種基于社會(huì)媒體的事件圖譜構(gòu)建方法,其特征在于,首先進(jìn)行多源數(shù)據(jù)預(yù)處理,接著對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行多源事件信息抽取,然后通過事件關(guān)系評(píng)價(jià)對(duì)事件間關(guān)系進(jìn)行判定,最后進(jìn)行實(shí)體信息融合,對(duì)異構(gòu)圖中的實(shí)體進(jìn)行屬性補(bǔ)全;
在所述多源數(shù)據(jù)預(yù)處理中使用了WebMagic開源爬蟲框架來實(shí)現(xiàn)基本爬蟲功能,同時(shí)移植ContentExtractor網(wǎng)頁正文解析工具實(shí)現(xiàn)網(wǎng)頁自適應(yīng)解析,針對(duì)百科數(shù)據(jù)、新聞網(wǎng)站、新浪文本進(jìn)行采集;在所述多源事件信息抽取中,包括五個(gè)任務(wù),所述任務(wù)包括命名實(shí)體識(shí)別,事件分類,謂詞抽取,摘要抽取,關(guān)鍵詞抽取;在命名實(shí)體識(shí)別中,基于CRF++工具基于MSRA公開數(shù)據(jù)集對(duì)CRF模型進(jìn)行訓(xùn)練,根據(jù)社會(huì)媒體事件一步優(yōu)化訓(xùn)練特征,選取窗口大小為3;
事件具體類別包括自然災(zāi)害類,安全事故類,環(huán)境衛(wèi)生類,社會(huì)安全類,政治軍事類;所述事件分類中,首先對(duì)事件相關(guān)新聞的類別標(biāo)簽進(jìn)行映射,如果不能確定所屬類別,對(duì)文本中關(guān)鍵字利用項(xiàng)目提供的類別關(guān)鍵詞庫進(jìn)行匹配分析,所述類別關(guān)鍵詞庫由開源細(xì)胞詞庫與word2vec近義詞擴(kuò)展得到實(shí)現(xiàn)常見詞的分類,使用SVM多分類器對(duì)文本主題進(jìn)行判定實(shí)現(xiàn)非常見詞分類;
在所述摘要抽取中,對(duì)于主流新聞網(wǎng)站利用爬蟲直接爬取復(fù)用,對(duì)于缺少人工摘要的新聞,直接選取標(biāo)題作為摘要;對(duì)于微博文本,首先需要對(duì)其內(nèi)容進(jìn)行過濾HTML標(biāo)簽、表情符預(yù)處理,接著判斷是否帶有話題標(biāo)簽,如果帶有話題標(biāo)簽則使用話題標(biāo)簽作為摘要,如果缺少話題標(biāo)簽,則通過對(duì)比句中單詞TF-IDF值之和,對(duì)句子重要程度進(jìn)行打分,排序選取摘要句;對(duì)所述摘要候選句進(jìn)行排序,經(jīng)過句向量比較、合并之后,按照出現(xiàn)頻次排序的方式,選取出出現(xiàn)頻率最高的摘要句作為事件摘要;
所述事件關(guān)系評(píng)價(jià)中,定義事件Ei和Ej關(guān)聯(lián)度為Rij,當(dāng)關(guān)聯(lián)度Rij>θ時(shí)說明事件相關(guān),具體量化公式主要分為兩部分:實(shí)體關(guān)聯(lián)度和語義關(guān)聯(lián)度,其中實(shí)體關(guān)聯(lián)度公式為
所述time為事件時(shí)間,loc為事件地點(diǎn),par為事件參與人物,topic為事件主體分類,式中滿足α+β+γ+δ=1,且α,β,γ,δ>0,其中時(shí)間相似度Simtime是兩個(gè)事件時(shí)間差的反比函數(shù),事件時(shí)間越接近,相關(guān)度越高,取值區(qū)間為[0,1],對(duì)于主題相似度,如果兩個(gè)事件類型一致,則Simtopic(topici,topicj)為1,如果存在自然災(zāi)害或安全事故,則Simtopic(topici,topicj)為1/2,如果均不滿足上述情形,則Simtopic(topici,topicj)取0;如果兩個(gè)事件地點(diǎn)完全一致或某個(gè)地點(diǎn)包含于另一地點(diǎn),則認(rèn)為事件地點(diǎn)相似度simloc(loci,locj)為1,否則取0;所述
所述事件語義關(guān)聯(lián)度計(jì)算公式為:simsematic(Ei,Ej)=A·Simdesc(desei,descj)+B·Simverb(verbi,verbj),所述desc為事件描述,所述verb為事件動(dòng)作詞,其中A+B=1,且A,B>0;所述關(guān)聯(lián)度Rij為:
其中0<θ3<θ2<θ1<2,θ1,θ2,θ3為關(guān)系劃分閾值。
2.如權(quán)利要求1所述的方法,其特征在于,在所述實(shí)體信息融合中包括實(shí)體消歧和共指消歧,所述實(shí)體消歧首先利用詞袋模型對(duì)文本進(jìn)行表示,使用該實(shí)體指稱項(xiàng)出現(xiàn)的前后三句作為輸入,經(jīng)過分詞、去除停用詞及指稱項(xiàng)本身,組成詞袋,對(duì)于單詞ti,特征量為該詞的word2vec詞向量表示該詞權(quán)重,其中ci為該詞在文檔中出現(xiàn)次數(shù),利用歐式距離計(jì)算詞與詞之間的相似度,以c(i,j)表示ti、tj間的轉(zhuǎn)移代價(jià),算法目標(biāo)函數(shù)為最小化約束條件為求解得到wmd值即最終兩個(gè)詞袋之間的相轉(zhuǎn)移代價(jià);所述共指消歧采取了構(gòu)建利用同義詞表的方式,將不同名的指稱項(xiàng)統(tǒng)一對(duì)應(yīng)到標(biāo)準(zhǔn)唯一實(shí)體名。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué);國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心,未經(jīng)北京航空航天大學(xué);國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810445536.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種事件通訊裝置及方法
- 動(dòng)態(tài)權(quán)重事件處理系統(tǒng)和方法
- 攻擊檢測(cè)裝置和攻擊檢測(cè)方法
- 基于Unity的事件管理方法及系統(tǒng)
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 熱點(diǎn)事件確定方法及裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種樹狀模型中節(jié)點(diǎn)的連接方法及其模型、計(jì)算機(jī)裝置和可讀存儲(chǔ)介質(zhì)
- 一種事件處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





