[發(fā)明專利]基于DPI大數(shù)據(jù)分析的信息推送方法和系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201610539302.5 | 申請(qǐng)日: | 2016-07-11 |
| 公開(公告)號(hào): | CN107608980A | 公開(公告)日: | 2018-01-19 |
| 發(fā)明(設(shè)計(jì))人: | 趙鈞 | 申請(qǐng)(專利權(quán))人: | 中國(guó)電信股份有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 中國(guó)國(guó)際貿(mào)易促進(jìn)委員會(huì)專利商標(biāo)事務(wù)所11038 | 代理人: | 孫寶海 |
| 地址: | 100033 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 dpi 數(shù)據(jù) 分析 信息 推送 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)字文本挖掘領(lǐng)域,尤其涉及一種基于DPI大數(shù)據(jù)分析的信息推送方法和系統(tǒng)。
背景技術(shù)
目前電信運(yùn)營(yíng)商實(shí)時(shí)廣告營(yíng)銷是通過(guò)基于DPI(Deep Packet Inspection,深度包檢測(cè))技術(shù)獲取用戶上網(wǎng)URL(Uniform Resource Locator,統(tǒng)一資源定位符)地址,結(jié)合事先建立好的URL地址庫(kù)中URL的分類信息(如新聞、購(gòu)物等),給用戶打標(biāo)簽,再基于用戶標(biāo)簽手工匹配營(yíng)銷主題實(shí)現(xiàn)。
但該方法存在以下問(wèn)題,例如:(1)URL地址庫(kù)中網(wǎng)址有限,只能覆蓋互聯(lián)網(wǎng)上的少量網(wǎng)址。(2)URL網(wǎng)頁(yè)內(nèi)容變化快,地址庫(kù)更新難度大。(3)電信運(yùn)營(yíng)商建立的用戶標(biāo)簽的精細(xì)度可能不能滿足廣告主需求,例如廣告主希望對(duì)正在看的網(wǎng)頁(yè)上有“聯(lián)想”、“筆記本”、“HP”、“超極本”等內(nèi)容的用戶實(shí)時(shí)推送筆記本廣告,而用戶標(biāo)簽可能只有“購(gòu)物”、“電腦”等類別。
發(fā)明內(nèi)容
本發(fā)明要解決的一個(gè)技術(shù)問(wèn)題是提供一種基于DPI大數(shù)據(jù)分析的信息推送方法和系統(tǒng),進(jìn)而實(shí)現(xiàn)向用戶精準(zhǔn)推送信息。
根據(jù)本發(fā)明一方面,提出一種基于DPI大數(shù)據(jù)分析的信息推送方法,包括:基于深度包檢測(cè)DPI技術(shù)獲取用戶數(shù)據(jù)包;將用戶數(shù)據(jù)包解析為網(wǎng)頁(yè)文本;根據(jù)預(yù)定算法提取網(wǎng)頁(yè)文本中多個(gè)關(guān)鍵詞;計(jì)算包含關(guān)鍵詞的網(wǎng)頁(yè)和推送信息主題詞的相似度;當(dāng)相似度大于閾值時(shí),向訪問(wèn)網(wǎng)頁(yè)的用戶推送與主題詞相關(guān)的信息。
進(jìn)一步地,根據(jù)預(yù)定算法提取網(wǎng)頁(yè)文本中多個(gè)關(guān)鍵詞包括:根據(jù)詞頻TF-逆向文件頻率IDF算法計(jì)算網(wǎng)頁(yè)文本中的詞語(yǔ)的TF-IDF值;對(duì)TF-IDF值由大到小進(jìn)行排序;獲取前N個(gè)TF-IDF值對(duì)應(yīng)的詞語(yǔ)作為關(guān)鍵詞。
進(jìn)一步地,根據(jù)TF-IDF算法計(jì)算網(wǎng)頁(yè)文本中的詞語(yǔ)的TF-IDF值包括:預(yù)先基于DPI技術(shù)采集用戶訪問(wèn)網(wǎng)頁(yè),生成URL-詞頻構(gòu)成的語(yǔ)料庫(kù);根據(jù)語(yǔ)料庫(kù)計(jì)算網(wǎng)頁(yè)文本中的詞語(yǔ)的IDF值;根據(jù)網(wǎng)頁(yè)文本中的詞語(yǔ)的IDF值獲取網(wǎng)頁(yè)文本中的詞語(yǔ)的TF-IDF值。
進(jìn)一步地,預(yù)先基于DPI技術(shù)采集用戶訪問(wèn)網(wǎng)頁(yè),生成URL-詞頻構(gòu)成的語(yǔ)料庫(kù)包括:預(yù)先基于DPI技術(shù)采集用戶訪問(wèn)網(wǎng)頁(yè);通過(guò)限制用戶訪問(wèn)網(wǎng)頁(yè)的大小、自定義停用詞和/或?qū)⒂脩粼L問(wèn)網(wǎng)頁(yè)中出現(xiàn)次數(shù)小于閾值的詞語(yǔ)剔除后,生成語(yǔ)料庫(kù)。
進(jìn)一步地,計(jì)算包含關(guān)鍵詞的網(wǎng)頁(yè)和推送信息主題詞的相似度包括:根據(jù)TF-IDF算法計(jì)算語(yǔ)料庫(kù)中包含推送信息主題詞的網(wǎng)頁(yè)中關(guān)鍵詞的TF-IDF值;將計(jì)算出的包含每個(gè)推送信息主題詞的網(wǎng)頁(yè)中每個(gè)關(guān)鍵詞的TF-IDF值相加作為包含關(guān)鍵詞的網(wǎng)頁(yè)和推送信息主題詞的相似度。
根據(jù)本發(fā)明的另一方面,還提出一種基于DPI大數(shù)據(jù)分析的信息推送系統(tǒng),包括:數(shù)據(jù)采集模塊,用于基于DPI技術(shù)獲取用戶數(shù)據(jù)包;數(shù)據(jù)包解析模塊,用于將用戶數(shù)據(jù)包解析為網(wǎng)頁(yè)文本;關(guān)鍵詞提取模塊,用于根據(jù)預(yù)定算法提取網(wǎng)頁(yè)文本中多個(gè)關(guān)鍵詞;相似度計(jì)算模塊,用于計(jì)算包含關(guān)鍵詞的網(wǎng)頁(yè)和推送信息主題詞的相似度;信息推送模塊,用于當(dāng)相似度大于閾值時(shí),向訪問(wèn)網(wǎng)頁(yè)的用戶推送與主題詞相關(guān)的信息。
進(jìn)一步地,關(guān)鍵詞提取模塊用于根據(jù)詞頻-逆向文件頻率TF-IDF算法計(jì)算網(wǎng)頁(yè)文本中的詞語(yǔ)的TF-IDF值;對(duì)TF-IDF值由大到小進(jìn)行排序;獲取前N個(gè)TF-IDF值對(duì)應(yīng)的詞語(yǔ)作為關(guān)鍵詞。
進(jìn)一步地,該系統(tǒng)還包括:語(yǔ)料庫(kù)管理模塊,用于預(yù)先基于DPI技術(shù)采集用戶訪問(wèn)網(wǎng)頁(yè),生成URL-詞頻構(gòu)成的語(yǔ)料庫(kù);關(guān)鍵詞提取模塊還用于根據(jù)語(yǔ)料庫(kù)計(jì)算網(wǎng)頁(yè)文本中的詞語(yǔ)的IDF值;根據(jù)網(wǎng)頁(yè)文本中的詞語(yǔ)的IDF值獲取網(wǎng)頁(yè)文本中的詞語(yǔ)的TF-IDF值。
進(jìn)一步地,語(yǔ)料庫(kù)管理模塊還用于預(yù)先基于DPI技術(shù)采集用戶訪問(wèn)網(wǎng)頁(yè);通過(guò)限制用戶訪問(wèn)網(wǎng)頁(yè)的大小、自定義停用詞和/或?qū)⒂脩粼L問(wèn)網(wǎng)頁(yè)中出現(xiàn)次數(shù)小于閾值的詞語(yǔ)剔除后,生成語(yǔ)料庫(kù)。
進(jìn)一步地,相似度計(jì)算模塊用于根據(jù)TF-IDF算法計(jì)算語(yǔ)料庫(kù)中包含推送信息主題詞的網(wǎng)頁(yè)中關(guān)鍵詞的TF-IDF值;將計(jì)算出的包含每個(gè)推送信息主題詞的網(wǎng)頁(yè)中每個(gè)關(guān)鍵詞的TF-IDF值相加作為包含關(guān)鍵詞的網(wǎng)頁(yè)和推送信息主題詞的相似度。
與現(xiàn)有技術(shù)相比,本發(fā)明利用DPI技術(shù)獲取用戶上網(wǎng)數(shù)據(jù)包,并通過(guò)預(yù)定算法實(shí)時(shí)分析網(wǎng)頁(yè)中詞頻特性,將用戶訪問(wèn)網(wǎng)頁(yè)中的關(guān)鍵詞與推送信息主題詞快速匹配,因此可以實(shí)現(xiàn)向用戶精準(zhǔn)推送信息。
通過(guò)以下參照附圖對(duì)本發(fā)明的示例性實(shí)施例的詳細(xì)描述,本發(fā)明的其它特征及其優(yōu)點(diǎn)將會(huì)變得清楚。
附圖說(shuō)明
構(gòu)成說(shuō)明書的一部分的附圖描述了本發(fā)明的實(shí)施例,并且連同說(shuō)明書一起用于解釋本發(fā)明的原理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)電信股份有限公司,未經(jīng)中國(guó)電信股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610539302.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種下發(fā)深度包檢測(cè)技術(shù)策略的方法和裝置
- 一種對(duì)深度報(bào)文檢測(cè)設(shè)備進(jìn)行分類的系統(tǒng)及方法
- 一種DPI設(shè)備注冊(cè)的方法和系統(tǒng)
- 報(bào)文處理方法、深度包檢測(cè)請(qǐng)求網(wǎng)元和深度包檢測(cè)設(shè)備
- 一種流量控制方法、DPI設(shè)備及系統(tǒng)
- DPI規(guī)則的生成方法及裝置
- 基于軟件定義網(wǎng)絡(luò)的深度包檢測(cè)系統(tǒng)及方法
- 一種顯示接口DPI復(fù)用及解復(fù)用裝置
- 一種DPI的適配方法和電子設(shè)備
- 一種基于云計(jì)算的深度包檢測(cè)系統(tǒng)及方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





