[發(fā)明專利]一種融合壓縮DOM樹結構向量的網絡行為預測方法有效
| 申請?zhí)枺?/td> | 202011342632.8 | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN112668309B | 公開(公告)日: | 2023-03-07 |
| 發(fā)明(設計)人: | 陳偉寧 | 申請(專利權)人: | 紫光云技術有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/284;G06F40/154;G06F16/35;G06F18/25 |
| 代理公司: | 天津濱海科緯知識產權代理有限公司 12211 | 代理人: | 劉瑩 |
| 地址: | 300459 天津市濱海新區(qū)*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 壓縮 dom 結構 向量 網絡 行為 預測 方法 | ||
本發(fā)明提供了一種融合壓縮DOM樹結構向量的網絡行為預測方法,包括:文本語料篩選,用于增強預測的準確性;詞向量模型,用于增強模型說服力,考慮到每個詞在文本中的重要程度不同,結合TF?IDF原理,計算每個詞的權重,并在引入權重后進行加權平均,最終表示整段文本的特征向量;壓縮DOM樹結構向量生成與向量融合,不同類型網站中的網頁DOM樹在節(jié)點使用和整體結構上都具有一定特點,因此可將DOM樹的結構轉化為向量,并作為輔助條件與文本特征向量融合,構建成最終的融合向量。本發(fā)明所述的一種融合壓縮DOM樹結構向量的網絡行為預測方法,有效篩選重要信息、構建更具說服力的文本特征向量,并采用融合向量的方法提升了準確率。
技術領域
本發(fā)明屬于Web前端技術領域,尤其是涉及一種融合壓縮DOM樹結構向量的網絡行為預測方法。
背景技術
判別用戶的網絡行為類別,實際是對用戶瀏覽網頁類型的分類預測。傳統(tǒng)方法利用日志工具等直接對請求網址類型進行判別,往往準確度不高,且在面對海量數(shù)據(jù)時無法進行全面判斷;
當前主流方法是采用爬蟲策略爬取網頁的全部文本內容,進而構建詞向量模型,再應用機器學習或深度學習方法訓練模型,最后對未知網頁類別進行判斷。這類方法雖然前期工作較為繁瑣,但依靠前期訓練出的優(yōu)良模型,后期工作量不大,且預測準確度得到顯著提升;
當前主流方法存在三個明顯缺點:1、選擇爬取網頁中的全部文本信息,就必然存在大量的噪聲元素,對最終的判別效果產生一定的影響;2、在構建詞向量模型時,采用傳統(tǒng)的均值模型,即用文本中所有詞的詞向量加和取平均后,作為整段文本的特征向量,這種方法在未考慮每個詞重要程度的前提下,為所有詞賦予了相同的權重,這與實際情況是相違背的;3、僅僅選擇文本信息作為數(shù)據(jù)源,使準確度停滯在當前范圍內而無較大提升,這一點也是當前預測精度受限的主要原因。
發(fā)明內容
有鑒于此,本發(fā)明旨在提出一種融合壓縮DOM樹結構向量的網絡行為預測方法,對用戶的網絡行為進行判別,進而有效分析出用戶的網絡行為習慣等信息,為網絡用戶畫像提供可靠的基礎數(shù)據(jù)。
為達到上述目的,本發(fā)明的技術方案是這樣實現(xiàn)的:
一種融合壓縮DOM樹結構向量的網絡行為預測方法,包括:
文本語料篩選,用于增強預測的準確性;
詞向量模型,用于增強模型說服力,考慮到每個詞在文本中的重要程度不同,結合TF-IDF原理,計算每個詞的權重,并在引入權重后進行加權平均,最終表示整段文本的特征向量;
壓縮DOM樹結構向量生成與向量融合,不同類型網站中的網頁DOM樹在節(jié)點使用和整體結構上都具有一定特點,因此可將DOM樹的結構轉化為向量,并作為輔助條件與文本特征向量融合,構建成最終的融合向量。
進一步的,在文本語料篩選中,將以下信息作為網頁中的語料文本:title網頁標題信息標簽1個,keywords網頁關鍵詞標簽1個,description網頁詳細描述標簽1個,a網頁鏈接標簽50個。
進一步的,為了增強模型說服力,考慮到每個詞在文本中的重要程度不同,結合TF-IDF原理,計算每個詞的權重,并在引入權重后進行加權平均,最終表示整段文本的特征向量;
首先按如下公式計算詞頻:
式中nw為特征詞w在文本中出現(xiàn)的次數(shù),N為文本中特征詞總數(shù),則TF用來衡量特征詞在文本中的重要程度;
然后計算逆文本概率:
式中D為文本總數(shù),Q為包含特征詞的文本數(shù),則IDF用于衡量特征詞在所有文本中的重要程度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于紫光云技術有限公司,未經紫光云技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011342632.8/2.html,轉載請聲明來源鉆瓜專利網。





