[發明專利]網絡地址的處理方法、設備及系統有效
| 申請號: | 201611199113.4 | 申請日: | 2016-12-22 |
| 公開(公告)號: | CN106612279B | 公開(公告)日: | 2020-04-17 |
| 發明(設計)人: | 柴斌 | 申請(專利權)人: | 北京知道創宇信息技術股份有限公司;無錫市公安局 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06 |
| 代理公司: | 北京思睿峰知識產權代理有限公司 11396 | 代理人: | 謝建云;趙愛軍 |
| 地址: | 100102 北京市朝陽區阜*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡地址 處理 方法 設備 系統 | ||
1.一種網絡地址的處理方法,適于在網絡地址分析設備中執行,所述網絡地址分析設備連接到數據存儲設備,所述數據存儲設備存儲有至少一個網絡地址集合,所述網絡地址集合包括指向相似網絡內容的至少一個網絡地址、以及所述至少一個網絡地址中的每個網絡地址指向的網絡內容、網絡內容的特征向量組,所述方法包括步驟:
獲取所述網絡地址指向的網絡內容;
獲取所述網絡內容中包含的文本內容;
根據標點符號將所述文本內容劃分為至少一個語句;
對每個語句,提取該語句的至少一個關鍵詞語;
對于每個關鍵詞語,生成該關鍵詞語在所述網絡內容中的特征向量,以便由所述至少一個關鍵詞語的特征向量構成所述網絡內容的特征向量組,所述特征向量包括關鍵詞語的詞語位置標識和語句位置標識,所述詞語位置標識根據所述關鍵詞語在所述語句中的位置生成,所述語句位置標識根據所述語句在所述文本內容中的位置生成;
對數據存儲設備中的每個網絡地址集合,
根據特征向量組計算所述網絡內容與該網絡地址集合的差異值;
若差異值小于或等于該網絡地址集合的差異閾值,則確定所述網絡地址與該網絡地址集合指向相似網絡內容;以及
將所述網絡地址、網絡地址指向的網絡內容、以及網絡內容的特征向量組存儲至該網絡地址集合中。
2.如權利要求1所述的方法,其中,所述獲取網絡內容包含的文本內容的步驟包括:
獲取所述網絡內容包含的圖片;以及
識別所述圖片包含的文本內容。
3.如權利要求1所述的方法,其中,所述網絡地址分析設備耦接到詞性查詢設備,所述提取該語句的至少一個關鍵詞語的步驟包括:
將所述語句劃分為至少一個詞語;
經由詞性查詢設備獲取每個詞語的詞性;
根據每個詞語的詞性和預先配置的語句結構規則,提取所述至少一個詞語中主語、謂語和賓語分別對應的詞語作為關鍵詞語。
4.如權利要求1所述的方法,其中,所述特征向量包括關鍵詞語的詞語標識、詞語位置標識、以及語句位置標識,所述詞語標識唯一標識該關鍵詞語,生成關鍵詞語在網絡內容中的至少一個特征向量的步驟包括:
獲取包含該關鍵詞語的至少一個語句;
對每個語句,分別根據該關鍵詞語在該語句中的位置、以及該語句在文本內容中的位置生成一個特征向量中的詞語位置標識和語句位置標識。
5.如權利要求4所述的方法,其中,所述計算網絡內容與該網絡地址集合的差異值的步驟包括:
計算所述網絡內容與網絡地址集合中的每一個網絡地址指向的網絡內容的差異值;
根據與每一個網絡地址指向的網絡內容的差異值,計算所述網絡內容與所述網絡地址集合的差異值。
6.如權利要求5所述的方法,其中,所述計算網絡內容與網絡地址集合中的每一個網絡地址指向的網絡內容的差異值的步驟包括:
提取所述網絡內容和所述網絡地址集合中的該網絡地址指向的網絡內容的特征向量組中的詞語標識;
對其中每個詞語標識,
分別計算該詞語標識對應的關鍵詞語在所述網絡內容和所述網絡地址集合中的該網絡地址指向的網絡內容中的特征值;
根據關鍵詞語在兩個網絡內容中的特征值計算該關鍵詞語在兩個網絡內容中的差異值;根據所提取的關鍵詞語的數量和每個關鍵詞語的差異值計算兩個網絡內容的差異值。
7.如權利要求6所述的方法,其中,計算詞語標識對應的關鍵詞語在網絡內容中的特征值的步驟包括:
在該網絡內容的特征向量組中查找是否存在包含該詞語標識的至少一個特征向量;
若是,根據至少一個特征向量計算該詞語標識對應的關鍵詞語在該網絡內容中的特征值;以及
若否,則令該詞語標識對應的關鍵詞語在該網絡內容中的特征值為0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京知道創宇信息技術股份有限公司;無錫市公安局,未經北京知道創宇信息技術股份有限公司;無錫市公安局許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611199113.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據合法性驗證方法及系統
- 下一篇:一種終端設備虛擬化管理的方法及系統





