[發明專利]指定類型網站的辨別方法和指定類型網站的辨別裝置有效
| 申請號: | 201710227599.6 | 申請日: | 2017-04-10 |
| 公開(公告)號: | CN108694325B | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 于琳琳;張丹;王九碩;于曉明 | 申請(專利權)人: | 北大方正集團有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06F21/60 | 分類號: | G06F21/60 |
| 代理公司: | 北京友聯知識產權代理事務所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 指定 類型 網站 辨別 方法 裝置 | ||
本發明提供了一種指定類型網站的辨別方法和指定類型網站的辨別裝置,其中,指定類型網站的辨別方法包括:根據預設的探測方式,確定未知網站的網站入口,以確定未知網站的首頁信息;提取未知網站的首頁信息的結構特征;提取未知網站的首頁信息的文本特征;對結構特征與文本特征進行加權處理,以生成未知網站的聯合特征向量;確定聯合特征向量與預設網站模型的特征向量的相似度,以確定未知網站是否為指定類型網站。通過本發明技術方案,利用較小的帶寬實現對互聯網指定類型網站的探測,此外,還可以做到對探測到的未知網站進行充分的辨別。
技術領域
本發明涉及互聯網技術領域,具體而言,涉及一種指定類型網站的辨別方法和一種指定類型網站的辨別裝置。
背景技術
在相關技術中,隨著互聯網的迅速發展,互聯網金融類網站應運而生,越來越多的用戶通過互聯網進行金融交易,但是由于用戶難以判斷互聯網金融網站的資質及安全性,因而產生了很多通過非法手段斂財的偽互聯網金融類網站,因此建立對互聯網金融類網站的探測和判別機制具有十分重要的意義。
目前對于互聯網金融類網站的探測,主要通過采集站點的全部網頁的方式實現,具有以下缺陷:
(1)探測量過多導致占用帶寬嚴重;
(2)單一網頁的采集方式不能滿足對于網站數據廣度上的需求。
對于互聯網金融類網站的判別,主要基于對網頁內容的分析,易造成誤判,判別的結果通常包括資訊類的金融門戶網站、大型門戶網站(如新浪財經等),不能準確識別出指定類型的金融類網站。
發明內容
本發明正是基于上述技術問題至少之一,提出了一種新的指定類型網站的辨別方案,通過預設的探測方式,實現對未知網站的首頁的探測,以獲得未知網站的首頁信息,通過使用對未知網站首頁的探測代替對網站全部網頁的探測,能夠減少對網站網頁的探測量,達到了利用小帶寬快速探測網站的目的,并且通過提取網站首頁的結構特征和文本特征,將結構特征與文本特征生成未知網站的聯合特征向量,通過特征向量將數據特征和結構特征結合在一起,與僅僅基于網頁內容進行辨別的方式相比,確定聯合特征向量與預設網站模型的特征向量的相似度,提升了對指定類型網站的辨別精度與準確性。
有鑒于此,本發明提出了一種指定類型網站的辨別方法,包括:根據預設的探測方式,確定未知網站的網站入口,以確定未知網站的首頁信息;提取未知網站的首頁信息的結構特征;提取未知網站的首頁信息的文本特征;對結構特征與文本特征進行加權處理,以生成未知網站的聯合特征向量;確定聯合特征向量與預設網站模型的特征向量的相似度,以確定未知網站是否為指定類型網站。
在該技術方案中,通過預設的探測方式,實現對未知網站的首頁的探測,以獲得未知網站的首頁信息,通過使用對未知網站首頁的探測代替對網站全部網頁的探測,能夠減少對網站網頁的探測量,達到了利用小帶寬快速探測網站的目的,并且通過提取網站首頁的結構特征和文本特征,將結構特征與文本特征生成未知網站的聯合特征向量,通過特征向量將數據特征和結構特征結合在一起,與僅僅基于網頁內容進行辨別的方式相比,確定聯合特征向量與預設網站模型的特征向量的相似度,提升了對指定類型網站的辨別精度與準確性。
具體地,指定類型,可以包括金融支付類網站、政府網站、企業網站等各種類型。
在上述技術方案中,優選地,在根據預設的探測方式,確定未知網站的網站入口,以確定未知網站的首頁信息前,還包括:對已知指定類型網站進行標注;對進行標注后的已知指定類型網站的首頁進行數據采集,以生成訓練集數據;對訓練集數據進行預處理,以提取訓練集數據中的文本信息;根據文本主體生成模型和文本信息,生成特征向量,以建立預設網站模型,其中,特征向量包括指定類型網站的關鍵詞以及關鍵詞的權重值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京北大方正電子有限公司,未經北大方正集團有限公司;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710227599.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息泄露監控方法以及裝置
- 下一篇:文本加密方法、裝置及服務器





