[發明專利]一種企業相關網頁主題測量方法及系統有效
| 申請號: | 201710354041.4 | 申請日: | 2017-05-18 |
| 公開(公告)號: | CN107357801B | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 辛柯俊 | 申請(專利權)人: | 辛柯俊 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/955;G06F16/957 |
| 代理公司: | 北京中企鴻陽知識產權代理事務所(普通合伙) 11487 | 代理人: | 郭鴻雁 |
| 地址: | 210049 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 企業 相關 網頁 主題 測量方法 系統 | ||
本發明提出了一種企業相關網頁主題測量方法及系統,包括:獲取樣本網頁信息,從網頁信息中提取網頁主題,并計算網頁主題的字數;計算網頁中符合下述條件的詞匯的數量;搜索友情鏈接的URL地址,查找到該鏈接的URL的網頁的友情鏈接是否包含自己源網頁域名;計算網頁中的每個鏈接的URL地址不是自己源網頁域名的數量和屬于自己源網頁域名的數量;計算網頁頁面中圖片數量;按照在HTML中出現的順序提取多個詞語作為一個詞表序列,計算詞表序列中每個詞同時出現的概率;對于給定網頁和樣本網頁計算上述參,計算給定網頁的與樣本網頁方差,確定網頁主題。本發明對爬蟲爬取的網頁進行相同的計算測量和分值比對,進行分類定性,得到網頁主題。
技術領域
本發明涉及計算機網絡技術領域,特別涉及一種企業相關網頁主題測量方法及系統。
背景技術
現有的企業信息綜合網站,大都是對企業信息的簡單羅列,并且是主要針對單一企業的信息匯總和分析。現有技術的缺點是存在缺少一種對企業之間的相互關系進行分析的方式。其中,如何通過各個企業的基本信息實現計算機自動化對該企業的主題進行確定,是當前需要解決的技術問題。
發明內容
本發明的目的旨在至少解決所述技術缺陷之一。
為此,本發明的目的在于提出一種企業相關網頁主題測量方法及系統。
為了實現上述目的,本發明的實施例提供一種企業相關網頁主題測量方法及系統,包括如下步驟:
步驟S1,獲取樣本網頁信息,從所述網頁信息中提取網頁主題,并計算所述網頁主題的字數P1;
步驟S2,計算網頁中符合下述條件的詞匯的數量,包括:HTML標簽獨立包圍、具有超鏈接、四字詞匯;
步驟S3,搜索友情鏈接的URL地址,查找到該鏈接的URL的網頁的友情鏈接是否包含自己源網頁域名,計算鏈接回的友情鏈接P3;
步驟S4,計算網頁中的每個鏈接的URL地址不是自己源網頁域名的數量P4和屬于自己源網頁域名的數量P5;
步驟S5,計算網頁頁面中圖片數量P6;
步驟S6,提取網頁中HTML標簽獨立包圍、具有超鏈接且為四字詞匯的詞語,按照在HTML中出現的順序提取多個詞語作為一個詞表序列,并計算詞表序列中每個詞同時出現在樣本網頁的菜單詞表序列中出現的概率P7,其中,所述四字詞匯由從網頁中提取出的詞匯根據語音節奏性拼湊成四字詞匯;
步驟S7,對于給定網頁和樣本網頁計算上述參數P1至P7,并計算給定網頁的P1至P7,與樣本網頁的P1至P7的方差,以得到所述給定網頁和樣本網頁的相似性,確定網頁主題。
進一步,所述網頁信息包括:網頁標題、網頁菜單、友情鏈接、內外鏈接、圖片數量、菜單文字。
進一步,在所述步驟S7中,采用F-檢驗方法計算給定網頁的P1至P7,與樣本網頁的P1至P7的方差。
進一步,在所述步驟S7中,P1-P7設置不同權重進行調試。
本發明實施例還提出一種企業相關網頁主題測量系統,包括:
網頁獲取模塊,用于獲取樣本網頁信息,從所述網頁信息中提取網頁主題,并計算所述網頁主題的字數P1;
詞匯數量計算模塊,用于計算網頁中符合下述條件的詞匯的數量,包括:HTML標簽獨立包圍、具有超鏈接、四字詞匯;
友情鏈接搜索模塊,用于搜索友情鏈接的URL地址,查找到該鏈接的URL的網頁的友情鏈接是否包含自己源網頁域名,計算鏈接回的友情鏈接P3;
數量計算模塊,用于計算網頁中的每個鏈接的URL地址不是自己源網頁域名的數量P4和屬于自己源網頁域名的數量P5,以及網頁頁面中圖片數量P6;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于辛柯俊,未經辛柯俊許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710354041.4/2.html,轉載請聲明來源鉆瓜專利網。





