[發明專利]一種事件信息分析方法、計算機可讀存儲介質及終端設備有效
| 申請號: | 201810305412.4 | 申請日: | 2018-04-08 |
| 公開(公告)號: | CN108763272B | 公開(公告)日: | 2019-09-17 |
| 發明(設計)人: | 陳一戀;汪偉;王曉偉;羅傲雪;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 深圳中一專利商標事務所 44237 | 代理人: | 官建紅 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標事件 語句 初始搜索 搜索結果 預設 計算機可讀存儲介質 網絡搜索引擎 正則表達式 事件信息 事件主體 終端設備 匹配 計算機技術領域 分析效率 匹配成功 自動匹配 字段 分析 篩選 引入 | ||
1.一種事件信息分析方法,其特征在于,包括:
通過預設的網絡搜索引擎獲取與預設的初始關鍵詞對應的初始搜索結果;
在所述初始搜索結果中篩選出擴展關鍵詞,所述擴展關鍵詞為與所述初始關鍵詞的相似度大于預設的相似度閾值的詞語;
通過所述網絡搜索引擎獲取與所述擴展關鍵詞對應的擴展搜索結果;
提取所述初始搜索結果和所述擴展搜索結果中的目標事件語句,所述目標事件語句為包含事件關鍵詞和預設的匹配字段的語句,所述事件關鍵詞為所述初始關鍵詞或所述擴展關鍵詞;
通過預設的正則表達式對所述目標事件語句進行匹配;
若匹配成功,則將所述目標事件語句中的所述匹配字段確定為與所述目標事件語句對應的事件主體;
所述通過所述網絡搜索引擎獲取與所述擴展關鍵詞對應的擴展搜索結果包括:
根據下式分別計算各個所述擴展關鍵詞的重要度分值:
其中,ew為任一所述擴展關鍵詞,freq(ew)為ew在所述初始搜索結果中出現的頻次,Freq(ew)為ew在預設的樣本語料庫中出現的頻次,ExWord為由各個所述擴展關鍵詞組成的集合,max[Freq(ExWord)]為各個所述擴展關鍵詞在所述樣本語料庫中出現的頻次的最大值,ln為自然對數函數,Score(ew)為ew的重要度分值;
根據下式分別計算與各個所述擴展關鍵詞對應的擴展搜索結果的截取數目:
其中,ews為序號為s的所述擴展關鍵詞,1≤s≤S,S為所述擴展關鍵詞的數目,α為預設的比例系數,PageNum為預設的所述初始搜索結果的數目,ExPageNum(ew)為與ew對應的擴展搜索結果的截取數目;
分別按照所述截取數目獲取與各個所述擴展關鍵詞對應的擴展搜索結果。
2.根據權利要求1所述的事件信息分析方法,其特征在于,在通過預設的網絡搜索引擎獲取與預設的初始關鍵詞對應的初始搜索結果之后,還包括:
對所述初始搜索結果進行哈希運算,得到所述初始搜索結果的哈希值;
在預設的哈希值集合中查找所述初始搜索結果的哈希值,所述哈希值集合用于記錄已存儲在預設的存儲介質中的網頁的哈希值;
若在所述哈希值集合中未查找到所述初始搜索結果的哈希值,則將所述初始搜索結果的哈希值添加入所述哈希值集合中,并將所述初始搜索結果存儲在所述存儲介質中;
若在所述哈希值集合中查找到所述初始搜索結果的哈希值,則丟棄所述初始搜索結果。
3.根據權利要求2所述的事件信息分析方法,其特征在于,所述對所述初始搜索結果進行哈希運算,得到所述初始搜索結果的哈希值包括:
根據下式獲取所述初始搜索結果的摘要內容:
SubContent=Head(PageContent)∪Tail(PageContent)
其中,PageContent為所述初始搜索結果中的網頁正文,Head(PageContent)為所述初始搜索結果中的網頁正文的前M個字符,Tail(PageContent)為所述初始搜索結果中的網頁正文的后N個字符,M和N均為大于1的整數,SubContent為所述初始搜索結果的摘要內容;
根據下式計算所述初始搜索結果的哈希值:
Key=Hash(SubContent)=Hash[Head(PageContent)∪Tail(PageContent)]
其中,Hash為預設的哈希函數,Key為所述初始搜索結果的哈希值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810305412.4/1.html,轉載請聲明來源鉆瓜專利網。





