[發明專利]基于社交信息的風險事件的識別系統及方法有效
| 申請號: | 201710313184.0 | 申請日: | 2017-05-05 |
| 公開(公告)號: | CN107688594B | 公開(公告)日: | 2019-07-16 |
| 發明(設計)人: | 金戈;徐亮;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27;G06Q50/00 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 社交 信息 風險 事件 識別 系統 方法 | ||
1.一種基于社交信息的風險事件的識別系統,其特征在于,所述基于社交信息的風險事件的識別系統包括:
獲取模塊,用于從預定的社交服務器中獲取預定的各社交賬號發布的社交信息;
分析模塊,用于對所述社交信息進行分析,以獲取所述社交信息中的公司名稱和/或產品名稱;
解析模塊,用于在獲取得到所述社交信息中的公司名稱和/或產品名稱時,根據預設的規則解析得到所述社交信息對應的核心觀點信息;
識別模塊,用于利用預先訓練生成的分類器識別所述核心觀點信息對應的信息指向類別,以便將屬于預設的信息指向類別對應的社交信息及發布該社交信息的社交賬號發送給預定的終端進行審核;
所述分析模塊包括:
分詞單元,用于按照預定的分詞規則對所述社交信息進行分詞處理以獲取對應的分詞;
標注單元,用于按照預定的詞性標注規則對所述分詞進行詞性標注;
分類單元,用于對詞性為名詞的分詞,按照預定的詞分類規則進行分類,以從分類結果中獲取所述社交信息中的公司名稱和/或產品名稱;
所述預定的分詞規則為:
按預設類型標點符號對所述社交信息進行短句拆分,對拆分得到的短句,采用長詞優先原則進行分詞處理;
所述解析模塊包括:
構建單元,用于在獲取得到所述社交信息中的公司名稱和/或產品名稱時,根據獲取得到公司名稱和/或產品名稱的社交信息中的各個分詞的順序及詞性構建成預設結構分詞樹;
解析單元,用于基于所述預設結構分詞樹解析出對應的社交信息對應的核心觀點信息;
所述預設結構分詞樹包括多級節點,第一級節點為所述社交信息,第二級節點為由所述社交信息按照對應的分詞的順序及詞性劃分得到的分詞短語,第二級節點之后的每一級節點均是由上一級節點的分詞短語按照詞性劃分得到;
所述解析單元具體用于基于所述預設結構分詞樹計算第一預設詞性的分詞與第二預設詞性的分詞的節點距離;獲取與第一個預設詞性的分詞節點距離最小的第二個預設詞性的分詞,將第一個預設詞性的分詞與距離其最小的第二個預設詞性的分詞按序組成對應的核心觀點信息。
2.根據權利要求1所述的基于社交信息的風險事件的識別系統,其特征在于,所述信息指向類別包括正面信息和負面信息,所述分類器為支持向量機分類器,所述基于社交信息的風險事件的識別系統還包括:
訓練模塊,用于獲取預設數量的正面信息的核心觀點信息樣本及預設數量的負面信息的核心觀點信息樣本,將獲取的所有核心觀點信息樣本隨機分成第一預設比例的訓練集和第二預設比例的驗證集,利用所述訓練集訓練預定的支持向量機分類器,并利用所述驗證集驗證訓練后的支持向量機分類器的準確率,若所述準確率大于等于預設準確率,則訓練結束,以訓練后的支持向量機分類器為所述分類器,或者,若所述準確率小于預設準確率,則增加正面信息的核心觀點信息樣本數量及負面信息的核心觀點信息樣本數量,以重新進行訓練。
3.根據權利要求1所述的基于社交信息的風險事件的識別系統,其特征在于,所述預定的詞性標注規則為:
根據通用字詞典庫中字和詞分別與詞性的映射關系,及/或,根據預設的字和詞分別與詞性的映射關系,確定分詞處理后的各分詞對應的詞性,并進行標注。
4.根據權利要求3所述的基于社交信息的風險事件的識別系統,其特征在于,所述預定的詞分類規則為:
采用預先訓練生成的識別模型對詞性標注為名詞的分詞進行名詞類別識別,以將詞性標注為名詞的分詞進行名詞分類,所述識別模型為條件隨機場模型。
5.一種基于社交信息的風險事件的識別方法,其特征在于,所述基于社交信息的風險事件的識別方法包括:
S1,從預定的社交服務器中獲取預定的各社交賬號發布的社交信息;
S2,對所述社交信息進行分析,以獲取所述社交信息中的公司名稱和/或產品名稱;
S3,在獲取得到所述社交信息中的公司名稱和/或產品名稱時,根據預設的規則解析得到所述社交信息對應的核心觀點信息;
S4,利用預先訓練生成的分類器識別所述核心觀點信息對應的信息指向類別,以便將屬于預設的信息指向類別對應的社交信息及發布該社交信息的社交賬號發送給預定的終端進行審核;
所述步驟S2包括:
按照預定的分詞規則對所述社交信息進行分詞處理以獲取對應的分詞;所述預定的分詞規則為:按預設類型標點符號對所述社交信息進行短句拆分,對拆分得到的短句,采用長詞優先原則進行分詞處理;
按照預定的詞性標注規則對所述分詞進行詞性標注;
對詞性為名詞的分詞,按照預定的詞分類規則進行分類,以從分類結果中獲取所述社交信息中的公司名稱和/或產品名稱;
所述步驟S3包括:
在獲取得到所述社交信息中的公司名稱和/或產品名稱時,根據獲取得到公司名稱和/或產品名稱的社交信息中的各個分詞的順序及詞性構建成預設結構分詞樹;所述預設結構分詞樹包括多級節點,第一級節點為所述社交信息,第二級節點為由所述社交信息按照對應的分詞的順序及詞性劃分得到的分詞短語,第二級節點之后的每一級節點均是由上一級節點的分詞短語按照詞性劃分得到;
基于所述預設結構分詞樹計算第一預設詞性的分詞與第二預設詞性的分詞的節點距離;獲取與第一個預設詞性的分詞節點距離最小的第二個預設詞性的分詞,將第一個預設詞性的分詞與距離其最小的第二個預設詞性的分詞按序組成對應的核心觀點信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710313184.0/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





