[發明專利]應用特征庫生成方法和裝置在審
| 申請號: | 201710620842.0 | 申請日: | 2017-07-27 |
| 公開(公告)號: | CN110020037A | 公開(公告)日: | 2019-07-16 |
| 發明(設計)人: | 關迎暉;劉春;向勇;陳翀;陳康 | 申請(專利權)人: | 中國電信股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/953;G06F16/33;G06F17/27 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 劉劍波 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 應用特征 方法和裝置 庫生成 特征庫 語料庫 權重 預處理 抓取 深度包檢測 數據通過 搜索引擎 有效解決 預定周期 自動識別 大數據 時效性 自學習 語料 應用 | ||
本發明公開一種應用特征庫生成方法和裝置,涉及大數據領域。其中按照預定周期對深度包檢測數據進行預處理,以提取出具有預定權重的詞,根據具有預定權重的詞,通過搜索引擎抓取相關語料,以生成語料庫,根據語料庫生成應用特征庫。本發明利用DPI數據通過自學習以生成應用APP特征庫,從而可基于該APP特征庫自動識別出DPI數據中的APP應用,有效解決了APP識別的準確性和時效性問題。
技術領域
本發明涉及大數據領域,特別涉及一種應用特征庫生成方法和裝置。
背景技術
DPI(Deep Packet Inspection,深度包檢測)數據中包含豐富的應用APP使用信息,不同APP在DPI中會留下其特征指紋(如特定端口、特定字符串等)。通過對APP的識別,發現用戶的APP使用行為,進而為用戶行為分析、APP應用分析提供有效手段。
目前APP識別多采用規則或模糊匹配的方法,需要人工維護規則庫或APP特征庫,特征庫多來源自各大APP應用市場。針對不斷涌現的新應用,難以保證識別的時效性和準確性。
發明內容
本發明實施例提供一種應用特征庫生成方法和裝置,利用DPI數據通過自學習以生成應用APP特征庫,從而可基于該APP特征庫自動識別出DPI數據中的APP應用,有效解決了APP識別的準確性和時效性問題。
根據本發明的一個方面,提供一種應用特征庫生成方法,包括:
按照預定周期對深度包檢測數據進行預處理,以提取出具有預定權重的詞;
根據具有預定權重的詞,通過搜索引擎抓取相關語料,以生成語料庫;
根據語料庫生成應用特征庫。
在一個實施例中,對深度包檢測數據進行預處理包括:
對深度包檢測數據進行分詞處理,并去除停用詞;
計算詞權重;
提取出具有預定權重的詞。
在一個實施例中,應用特征庫包括關鍵詞、關鍵詞出現個數字典和關鍵詞出現頻率字典中的至少一個。
在一個實施例中,在根據語料庫生成應用特征庫后,還包括:
對于要識別的深度包檢測數據,通過應用特征庫提取相應的應用特征;
利用應用特征庫,識別出與應用特征相對應的應用名稱。
在一個實施例中,標注應用名稱的中文名稱。
根據本發明的另一方面,提供一種應用特征庫生成裝置,包括:
預處理模塊,用于按照預定周期對深度包檢測數據進行預處理,以提取出具有預定權重的詞;
語料庫生成模塊,用于根據具有預定權重的詞,通過搜索引擎抓取相關語料,以生成語料庫;
特征庫生成模塊,用于根據語料庫生成應用特征庫。
在一個實施例中,預處理模塊用于對深度包檢測數據進行分詞處理,并去除停用詞,計算詞權重,提取出具有預定權重的詞。
在一個實施例中,應用特征庫包括關鍵詞、關鍵詞出現個數字典和關鍵詞出現頻率字典中的至少一個。
在一個實施例中,上述裝置還包括:
應用識別模塊,用于在特征庫生成模塊根據語料庫生成應用特征庫后,對于要識別的深度包檢測數據,通過應用特征庫提取相應的應用特征,利用應用特征庫,識別出與應用特征相對應的應用名稱。
在一個實施例中,上述裝置還包括:
標注模塊,用于標注應用名稱的中文名稱。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電信股份有限公司,未經中國電信股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710620842.0/2.html,轉載請聲明來源鉆瓜專利網。





