[發明專利]一種融合壓縮DOM樹結構向量的網絡行為預測方法有效
| 申請號: | 202011342632.8 | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN112668309B | 公開(公告)日: | 2023-03-07 |
| 發明(設計)人: | 陳偉寧 | 申請(專利權)人: | 紫光云技術有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/284;G06F40/154;G06F16/35;G06F18/25 |
| 代理公司: | 天津濱海科緯知識產權代理有限公司 12211 | 代理人: | 劉瑩 |
| 地址: | 300459 天津市濱海新區*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 壓縮 dom 結構 向量 網絡 行為 預測 方法 | ||
1.一種融合壓縮DOM樹結構向量的網絡行為預測方法,其特征在于包括:
文本語料篩選,用于增強預測的準確性;
詞向量模型,用于增強模型說服力,考慮到每個詞在文本中的重要程度不同,結合TF-IDF原理,計算每個詞的權重,并在引入權重后進行加權平均,最終表示整段文本的特征向量;
壓縮DOM樹結構向量生成與向量融合,不同類型網站中的網頁DOM樹在節點使用和整體結構上都具有一定特點,因此可將DOM樹的結構轉化為向量,并作為輔助條件與文本特征向量融合,構建成最終的融合向量;
將DOM樹結構向量初始維度設置為15維,并在此向量中按DOM節點順序以div標簽開始描述節點標簽信息,在描述過程中,若在15維內未達到被描述結構的最大深度,則在15維表示完成后終止表示;若在15維內達到最大深度則剩余向量補0,若不在則相應位置置0,根據此規則,將DOM樹結構中的其中一條向量表示為:
v=[x1,x2,…,x15]
當多次重復出現相同結構時,可將該結構進行壓縮簡化表達,則在向量末尾追加一維構成16維向量:
v=[x1,x2,…,x15,num]
將全部向量表示為矩陣形式:
對上述向量進行壓縮,得到出現頻次最高的前五位,考慮到網頁之間的容量差異,將出現頻次統一為位次高低形式而不使用比例形式:
[x1,x2,…,x15,5]
[x16,x17,…,x30,4]
[x31,x32,…,x45,3]
[x46,x47,…,x60,2]
[x61,x62,…,x75,1]
最后將上述向量進行扁平化壓縮:
[x1,…,x15,5,x16,…,x30,4,x31,…,x45,3,x46,…,x60,2,x61,…,x75,1]。
2.根據權利要求1所述的一種融合壓縮DOM樹結構向量的網絡行為預測方法,其特征在于:在文本語料篩選中,將以下信息作為網頁中的語料文本:title網頁標題信息標簽1個,keywords網頁關鍵詞標簽1個,description網頁詳細描述標簽1個,a網頁鏈接標簽50個。
3.根據權利要求1所述的一種融合壓縮DOM樹結構向量的網絡行為預測方法,其特征在于:為了增強模型說服力,考慮到每個詞在文本中的重要程度不同,結合TF-IDF原理,計算每個詞的權重,并在引入權重后進行加權平均,最終表示整段文本的特征向量;
首先按如下公式計算詞頻:
式中nw為特征詞w在文本中出現的次數,N為文本中特征詞總數,則TF用來衡量特征詞在文本中的重要程度;nk指第k個特征詞在文本中出現的次數;
然后計算逆文本概率:
式中D為文本總數,Q為包含特征詞的文本數,則IDF用于衡量特征詞在所有文本中的重要程度;
結合上述兩式可得,特征詞權重為:
fTF-IDF=TF×IDF
因此,引入詞權重的文本特征向量表示方法為:
其中,v(ti)表示詞ti的詞向量,f(ti)表示由特征詞權重公式計算出的詞ti的權重,V(D)表示D文本的特征向量,n表示文本的詞數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于紫光云技術有限公司,未經紫光云技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011342632.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種虛擬專有云互通配置下發的實現方法
- 下一篇:一種新型積木式水泥加料裝置





