[發明專利]基于語義擴展的微博突發事件檢測方法及裝置有效
| 申請號: | 201710022500.9 | 申請日: | 2017-01-12 |
| 公開(公告)號: | CN106886567B | 公開(公告)日: | 2019-11-08 |
| 發明(設計)人: | 胡春明;吳博;彭浩;張日崇;李建欣 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/335 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 楊澤;劉芳 |
| 地址: | 100191 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 擴展 突發事件 檢測 方法 裝置 | ||
1.一種基于語義擴展的微博突發事件檢測方法,其特征在于,包括:
獲取與待檢測的微博突發事件對應的第一關鍵詞;
根據所述第一關鍵詞和所述第一關鍵詞關聯的詞向量文件,得到微博突發事件;
其中,所述第一關鍵詞關聯的詞向量文件是采用word2vec方法對訓練集中的訓練詞語進行訓練得到的,所述詞向量文件包括所述第一關鍵詞與其它訓練詞語之間的語義相似度;
其中,所述根據所述第一關鍵詞和所述第一關鍵詞關聯的詞向量文件,得到微博突發事件,包括:
根據所述詞向量文件獲取與所述第一關鍵詞語義相似度滿足第一閾值的第二關鍵詞;
根據所述第一關鍵詞和所述第二關鍵詞,獲取包含所述第一關鍵詞和/或所述第二關鍵詞的多個微博;
根據所述多個微博,得到所述微博突發事件;
其中,所述根據所述多個微博,得到所述微博突發事件,包括:
獲取所述多個微博被檢測出來的檢測時間;
獲取所述多個微博的相關度,將相關度位于前N名的N個微博作為所述微博突發事件的相關微博,并獲取所述相關微博的摘要;
獲取各所述相關微博的屬性,所述屬性包括:微博中出現的地點以及參與者,并獲取出現次數最多的目標地點和出現次數最多的目標參與者;
根據所述相關微博的語義表達,采用語義擴展的Embedding細胞詞庫和支持向量機SVM方法,獲取所述微博突發事件的分類;
采用基于SVM的情感分類方法,獲取所述微博突發事件的情感;
根據所述檢測時間、相關微博、摘要、目標地點、目標參與者、微博突發事件的分類以及微博突發事件的情感,得到所述微博突發事件;
其中,所述獲取所述相關微博的摘要,包括:
采用NLPIR分詞系統獲取對所述相關微博的第一描述;
查詢所述相關微博中是否含有主體標簽,所述第一描述中是否含有所述主體標簽;
若所述相關微博和所述第一描述中均含有主體標簽,則將第一描述作為所述摘要;
若所述相關微博中包含主體標簽,第一描述中不包括主體標簽,則將所述主體標簽作為所述摘要;
若所述相關微博中不包含主體標簽,則獲取相關微博中包含最多關鍵詞的語句,將所述語句作為所述摘要;其中,關鍵詞是指所述第一關鍵詞和/或所述第二關鍵詞。
2.根據權利要求1所述的方法,其特征在于,在所述根據所述第一關鍵詞和所述第一關鍵詞關聯的詞向量文件,得到微博突發事件之前,還包括:
獲取多個文本,并對各所述文本進行文本分詞,得到所述訓練詞語;
采用word2vec方法對所述訓練詞語進行訓練,得到所述詞向量文件。
3.根據權利要求2所述的方法,其特征在于,在所述采用word2vec方法對所述訓練詞語進行訓練,得到所述詞向量文件之后,還包括:
每隔預設周期更新所述詞向量文件,得到更新后的詞向量文件;
相應地,所述根據所述第一關鍵詞和所述第一關鍵詞關聯的詞向量文件,得到微博突發事件,包括:
根據所述更新后的詞向量文件獲取與所述第一關鍵詞語義相似度滿足第一閾值的第二關鍵詞;
根據所述第一關鍵詞和所述第二關鍵詞,獲取包含所述第一關鍵詞和/或所述第二關鍵詞的多個微博;
根據所述多個微博,得到所述微博突發事件。
4.根據權利要求3所述的方法,其特征在于,所述每隔預設周期更新所述詞向量文件,包括:
每隔所述預設周期重新獲取多個文本,并對各重新獲取的文本進行文本分詞,得到更新后的訓練詞語;
采用word2vec方法對所述更新后的訓練詞語進行訓練,得到所述更新后的詞向量文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710022500.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:壓縮文件的修改方法與裝置
- 下一篇:一種分表方法、裝置及電子設備





