[發明專利]一種企業相關網頁主題測量方法及系統有效
| 申請號: | 201710354041.4 | 申請日: | 2017-05-18 |
| 公開(公告)號: | CN107357801B | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 辛柯俊 | 申請(專利權)人: | 辛柯俊 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/955;G06F16/957 |
| 代理公司: | 北京中企鴻陽知識產權代理事務所(普通合伙) 11487 | 代理人: | 郭鴻雁 |
| 地址: | 210049 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 企業 相關 網頁 主題 測量方法 系統 | ||
1.一種企業相關網頁主題測量方法,其特征在于,包括如下步驟:
步驟S1,獲取樣本企業網頁信息,從所述網頁信息中提取網頁主題,并計算所述網頁標題的字數P1;
步驟S2,計算網頁中符合下述條件的詞匯的數量P2,包括:HTML標簽獨立包圍、具有超鏈接、四字詞匯;
步驟S3,搜索友情鏈接的URL地址,查找到該鏈接的URL的網頁的友情鏈接是否包含自己源網頁域名,計算鏈接回的友情鏈接P3;
步驟S4,計算網頁中的每個鏈接的URL地址不是自己源網頁域名的數量P4和屬于自己源網頁域名的數量P5;
步驟S5,計算網頁頁面中圖片數量P6;
步驟S6,提取網頁中HTML標簽獨立包圍、具有超鏈接且為四字詞匯的詞語,按照在HTML中出現的順序提取多個詞語作為一個詞表序列,并計算詞表序列中每個詞同時出現在樣本企業網頁的菜單詞表序列中出現的概率P7,其中,所述四字詞匯由從網頁中提取出的詞匯根據語音節奏性拼湊成四字詞匯;
步驟S7,對于給定網頁和樣本企業網頁計算上述參數P1至P7,并計算給定網頁的P1至P7,與樣本企業網頁的P1至P7的方差,以得到所述給定網頁和樣本企業網頁的相似性,確定網頁主題。
2.如權利要求1所述的企業相關網頁主題測量方法,其特征在于,所述網頁信息包括:網頁標題、網頁菜單、友情鏈接、內外鏈接、圖片數量、菜單文字。
3.如權利要求1所述的企業相關網頁主題測量方法,其特征在于,在所述步驟S7中,采用F-檢驗方法計算給定網頁的P1至P7,與樣本企業網頁的P1至P7的方差。
4.如權利要求1所述的企業相關網頁主題測量方法,其特征在于,在所述步驟S7中,P1-P7設置不同權重進行調試。
5.一種企業相關網頁主題測量系統,其特征在于,包括:
網頁獲取模塊,用于獲取樣本企業網頁信息,從所述網頁信息中提取網頁主題,并計算所述網頁標題的字數P1;
詞匯數量計算模塊,用于計算網頁中符合下述條件的詞匯的數量,包括:HTML標簽獨立包圍、具有超鏈接、四字詞匯;
友情鏈接搜索模塊,用于搜索友情鏈接的URL地址,查找到該鏈接的URL的網頁的友情鏈接是否包含自己源網頁域名,計算鏈接回的友情鏈接P3;
數量計算模塊,用于計算網頁中的每個鏈接的URL地址不是自己源網頁域名的數量P4和屬于自己源網頁域名的數量P5,以及網頁頁面中圖片數量P6;
概率統計模塊,用于提取網頁中HTML標簽獨立包圍、具有超鏈接且為四字詞匯的詞語,按照在HTML中出現的順序提取多個詞語作為一個詞表序列,并計算詞表序列中每個詞同時出現在樣本企業網頁的菜單詞表序列中出現的概率P7,其中,所述四字詞匯由從網頁中提取出的詞匯根據語音節奏性拼湊成四字詞匯;
網頁主題確定模塊,用于對于給定網頁和樣本企業網頁計算上述參數P1至P7,并計算給定網頁的P1至P7,與樣本企業網頁的P1至P7的方差,以得到所述給定網頁和樣本企業網頁的相似性,確定網頁主題。
6.如權利要求5所述的企業相關網頁主題測量系統,其特征在于,所述網頁信息包括:網頁標題、網頁菜單、友情鏈接、內外鏈接、圖片數量、菜單文字。
7.如權利要求5所述的企業相關網頁主題測量系統,其特征在于,所述網頁主題確定模塊采用F-檢驗方法計算給定網頁的P1至P7,與樣本企業網頁的P1至P7的方差。
8.如權利要求5所述的企業相關網頁主題測量系統,其特征在于,所述網頁主題確定模塊設置不同權重進行調試。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于辛柯俊,未經辛柯俊許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710354041.4/1.html,轉載請聲明來源鉆瓜專利網。





