[發明專利]熱點事件分類方法、裝置及存儲介質在審
| 申請號: | 201810252849.6 | 申請日: | 2018-03-26 |
| 公開(公告)號: | CN108595519A | 公開(公告)日: | 2018-09-28 |
| 發明(設計)人: | 王健宗;吳天博;黃章成;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06K9/62 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 熱點事件 預設 信息文本 特征詞 分詞 預先確定 存儲介質 事件類型 信息向量 方法提取 方式獲取 概率算法 計算公式 事件分類 事件主題 數量用戶 向量化 分類 服務器 發布 分析 | ||
1.一種熱點事件分類方法,應用于電子裝置,其特征在于,所述方法包括:
獲取步驟:實時從預先確定的服務器中獲取第一預設數量用戶發布的信息文本;
分詞步驟:利用預先確定的分詞規則對上述信息文本進行分詞,獲得各個信息文本對應的分詞;
確定步驟:提取出分詞中預設的特征詞,利用預先確定的概率算法確定該特征詞對應的事件主題;
計算步驟:根據預設的計算公式,計算出該特征詞對應的熱點事件指標值;
分類步驟:判斷熱點事件指標值是否大于預設閾值,若熱點事件指標值大于預設閾值,則利用預設的向量化方式獲取該特征詞對應的信息文本的信息向量,將所述信息向量輸入預先訓練的事件分類模型中,確定出該信息文本對應的事件類型。
2.根據權利要求1所述的熱點事件分類方法,其特征在于,所述預設的計算公式如下:
其中,v代表事件發展的速度,a代表熱點事件指標值,t代表時間點,T代表時間間隔,i為整數,ti代表第i個特征詞出現的時間點,Xi代表第i個特征詞出現的次數。
3.根據權利要求1所述的熱點事件分類方法,其特征在于,所述預先確定的分詞規則包括:
根據預設類型標點符號,將獲取的各個信息文本拆分成短句;
根據詞庫中存儲的詞語,利用長詞優先原則對每個短句進行分詞。
4.根據權利要求1所述的熱點事件分類方法,其特征在于,所述預先確定的概率算法包括:
在特征詞與事件主題文本之間添加第二預設數量的隱含事件主題;
根據預先確定的隱含事件主題與特征詞的映射關系,確定每個隱含事件主題含有的特征詞的第一數量X1及每個特征詞所屬的隱含事件主題的第二數量X2,根據第一數量X1和第二數量X2確定每個特征詞對各個隱含事件主題的第一選擇概率P1=1/(X1*X2);
根據預先確定的隱含事件主題與事件主題的映射關系,確定每個事件主題含有的隱含事件主題的第三數量X3及每個隱含事件主題所屬的事件主題的第四數量X4,根據第三數量X3和第四數量X4確定每個隱含事件主題對各個事件主題的第二選擇概率P2=1/(X3*X4);
將第一選擇概率P1和第二選擇概率P2代入預先確定的概率計算公式,計算出每個特征詞對各個事件主題的最終概率P3的分布。
5.根據權利要求4所述的熱點事件分類方法,其特征在于,所述預先確定的概率計算公式如下:
P3=P1*P2
其中,P1代表第一選擇概率,P2代表第二選擇概率,P3代表最終概率。
6.根據權利要求1所述的熱點事件分類方法,其特征在于,所述預設的向量化方式包括:
使用自動編碼器對信息文本的用戶信息進行編碼,生成用戶信息向量;
使用預先確定的詞向量模型對該信息文本進行詞向量編碼,生成該信息文本的文本信息向量;
將用戶信息向量與文本信息向量拼接起來生成該信息文本對應的信息向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810252849.6/1.html,轉載請聲明來源鉆瓜專利網。





