[發明專利]一種基于內容相似的網頁分割方法有效
| 申請號: | 201310669395.X | 申請日: | 2013-12-10 |
| 公開(公告)號: | CN103631944A | 公開(公告)日: | 2014-03-12 |
| 發明(設計)人: | 童名文;彭紅超;郝秋紅;牛琳;栗歡;楊蕾;張小娟 | 申請(專利權)人: | 華中師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 張火春 |
| 地址: | 430079 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 內容 相似 網頁 分割 方法 | ||
技術領域
本發明屬于自適應web呈現與web信息提取技術領域,具體來講,涉及一種基于內容相似的網頁分割方法。
背景技術
自適應web呈現技術是自適應技術的一個應用領域,它描述了一類新“智能組件/智能結構”,這些智能組件在工作條件改變的時候具有一個主動適應和目標優化調節的機械特性。這種主動的組件滿足了改善系統機械特性、效率、性能及其他特性的要求。
Web信息抽取技術是從Web網頁所包含的無結構、半結構或者結構化的信息中識別用戶感興趣的數據,并將其轉化為結構和語義更為清晰的格式(XML、關系數據等),是信息提取的一個應用領域。
早在20世紀90年代,人們便開始研究自適應web呈現與web信息提取技術,解決如何將針對PC端設計的網頁在移動終端正常問題。30年歷程,出現了各種解決方案。解決方法主要有三種:重構網頁、轉碼、網頁分割。重構網頁即建立一個與PC網頁對等的適合不同移動終端顯示的移動網頁,Web服務器判斷是移動終端用戶,則選擇重構網頁作為響應信息,該方法需要消耗大量的人力、物力、財力。轉碼即采用轉碼技術將HTML、JSP、ASP、PHP等不適合移動終端顯示的代碼轉換成對等的WML(適合移動終端顯示)的代碼,由于一個網頁含有大量的信息,如果將網頁內容全部顯示在小屏幕的移動終端中,需要花費大量時間滑動滾動條尋找需要的信息,用戶體驗極差;網頁分割即將網頁分割成語義完整的語義塊,用戶每次看到的僅僅是一個語義塊形成的子頁,該方法是目前熱點研究話題,可分為以下幾類:基于標簽的網頁分割方法、基于DOM的網頁分割方法、基于位置關系的網頁分割方法、基于模板的網頁分割方法、基于視覺的網頁分割方法。針對Web網頁特點及用途的不同,每類分割方法具有多種不同的具體實現方法,這些具體實現方法一般只針對具有某種特征的網站,使用范圍有限。比較先進的VIPS方法因“內容與樣式分離”思想的普及應用以及大量網頁的不規范,變得力不從心。隨著移動終端的迅速發展與3G技術的普及,該矛盾日益突出和尖銳。
采用上述三種方法生成的智能組件有三種部署方案:客戶端部署、服務器端部署、代理服務器端部署。客戶端部署即在客戶端以插件的形式實現,但必須考慮移動終端軟硬件性能的有限性以不同設備的兼容性問題。服務器端部署即將組件安裝在服務器端,主要有聯機部署(使用反向代理)和脫機部署(制成插件安裝到網頁制作工具中)兩種,該部署方法會增加服務器負擔,且這種負擔會成倍的增加;代理服務器端部署即在服務器端與客服端之間建立一個類似服務器的設備,智能組件安裝在該設備中獲取與響應用戶請求。
發明內容
為了解決上述的技術問題,本發明基于內容相似,從人類視覺角度提出一種解決移動終端瀏覽器準確、高效顯示Web網頁問題的網頁分割方法,該方法采用代理服務器部署,既避免不同客戶端兼容問題,又不會增加Web服務器的負擔。
本發明所采用的技術方案是:一種基于內容相似的網頁分割方法,其特征在于,包括以下步驟:
步驟1:自動獲取移動終端軟硬件配置信息并存儲;
步驟2:依據用戶請求獲取Web服務器中的Web網頁;
步驟3:對步驟2得到的Web頁面,進行HTML規范處理與CSS預處理,實現HTML規范化和樣式信息與數據的綁定;
步驟4:根據內容塊檢測算法獲取經步驟3處理后的Web網頁中所有內容塊;
步驟5:對于步驟4得到的內容塊,依據人類視覺特征得出六維度內容視覺向量空間,并定義內容視覺空間里兩點相似度計算公式;
步驟6:構建加權無向連通圖,依據移動終端軟硬件配置信息,采用Kruskal算法對加權無向連通圖進行分割,得到所述的加權無向連通圖的子圖;
步驟7:關聯所有子圖,建立子圖關系,選取第一個子圖作為主頁面推送給用戶。
作為優選,步驟1中所述的終端軟硬件配置信息包括移動終端品牌,移動終端型號,移動終端系統類型及版本,移動終端分辨率,移動終端瀏覽器類型、版本、內核信息,并設定所述的移動終端品牌、移動終端型號、移動終端系統類型及版本移動終端瀏覽器類型、版本、內核信息為主鍵。
作為優選,步驟3所述的對步驟2得到的Web頁面進行HTML規范化,其具體采用HTMLClear?Jar包實現。
作為優選,步驟3所述的對步驟2得到的Web頁面進行CSS預處理,其具體實現包括以下子步驟:
步驟3.1:獲取所述的Web頁面的進行HTML規范化后的樣式信息;
步驟3.2:關聯樣式信息和標簽;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中師范大學,未經華中師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310669395.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于蝕刻液循環再生設備的冷卻管
- 下一篇:核酸擴增裝置和核酸分析裝置
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





