[發(fā)明專利]輕量級智能網頁內容解析方法有效
| 申請?zhí)枺?/td> | 201010126329.4 | 申請日: | 2010-03-18 |
| 公開(公告)號: | CN101819584A | 公開(公告)日: | 2010-09-01 |
| 發(fā)明(設計)人: | 不公告發(fā)明人 | 申請(專利權)人: | 上海引跑信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 201203 上海市浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 輕量級 智能 網頁 內容 解析 方法 | ||
技術領域
本發(fā)明涉及網頁內容解析領域。?
背景技術
在網頁內容解析系統(tǒng)中,需要對網頁的內容進行過濾,僅保留有用的主體內容,并去除無用的信息,如廣告、菜單、導航等。然而傳統(tǒng)的解決方式是根據某網頁中的HTML源碼的結構,通過分析并確認主體內容的位置來進行解析。其前提是,知道某網頁的源碼特點和主體內容的確定位置。但是,不同的網頁具有不同的源碼結構和特點,這種解析方式僅能對已知的具體網頁進行解析,應用范圍有限。而且,網頁結構一旦調整,該功能也將失效。?
發(fā)明內容
本發(fā)明的目的是提供一種通用的針對文章類網頁(新聞、博客、論壇等帶有明顯主體內容的網頁)進行內容解析方法,通過分析該類網頁所具有的共性和在創(chuàng)建時所必然具有的某些特征,結合HTML源碼的結構特點來定位主體內容的位置,并獲取其內容。從而為一般用戶提供一快速、有效的輕量級的網頁內容解析工具。?
為了達到上述目的,本發(fā)明設定了一種主體內容定位算法。首先,下載并將網頁HTML源碼轉換成結構化數(shù)據模型;其次,分析數(shù)據模型,收集用于主體內容定位的數(shù)據;再次,利用收集的數(shù)據,對數(shù)據模型進行分析,定位主體內容(如新聞內容、博客文章、論壇主題和回復等)所在的位置;最終,分析所確定的主體內容模型,去除無用信息,獲取有關的主體內容。此外,通過交互?式界面作為補充,用戶可對已解析成功的結果進行進一步的合并、編輯、保存、索引。相當于為用戶提供了一網頁內容資料庫,供后期的檢索使用。這種方式,有效的將分析技術、存在特性、人工干預加以結合,提供更加貼近用戶的功能。?
附圖說明
圖1為本發(fā)明的工作流程示意圖。?
具體實施方式
下面結合附圖1對本發(fā)明所述的技術方案做進一步詳細描述。?
圖1為智能網頁內容解析所涉及的各個模塊的方框圖,其包括客戶端和服務器端兩部分,支持多個客戶端連接服務器端。客戶端包括網頁選取和內容編輯兩個部分。其中網頁選取主要用于觸發(fā)網頁內容解析任務,內容編輯主要用于成功解析網頁后,對多個網頁解析的結果,進行合并、編輯、保存。服務器端主要包括任務調度系統(tǒng)、網頁內容下載/解析、內容中心模塊。?
這個網頁內容解析過程主要步驟如下:?
1)用戶選擇網頁并生成任務;?
2)任務調度系統(tǒng)處理任務:?
a.下載網頁的HTML源碼;?
b.構建數(shù)據模型;?
由于HTML適用廣泛而且語法不是非常嚴格,因此構建模型需要以下幾個步驟:?
i.獲取編碼類型并進行相應的轉換;?
ii.對HTML源碼進行補全,方便構建對象;?
iii.過濾某些不規(guī)則字符,避免解析過程中出現(xiàn)異常;?
iv.解析源碼,構建對象;?
c.進行內容解析,獲取主體內容;?
i.遍歷節(jié)點,進行數(shù)據數(shù)據信息、文本信息、非文本信息、超鏈信息所占比例統(tǒng)計;?
ii.對所有節(jié)點的統(tǒng)計信息,根據相互父子、兄弟關系,比較純文本信息量、所占比例等統(tǒng)計數(shù)據,確認最可能的文章標題、主要內容的父節(jié)點;?
iii.將獲取的父節(jié)點所包含文字數(shù)據提出,并保存如自定義格式中。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海引跑信息科技有限公司,未經上海引跑信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010126329.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種層疊式水果運輸物流箱
- 下一篇:一種節(jié)能定時壽司保鮮盒
- 內容再現(xiàn)系統(tǒng)、內容提供方法、內容再現(xiàn)裝置、內容提供裝置、內容再現(xiàn)程序和內容提供程序
- 內容記錄系統(tǒng)、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統(tǒng)、內容服務器、內容終端及內容服務方法
- 內容分發(fā)系統(tǒng)、內容分發(fā)裝置、內容再生終端及內容分發(fā)方法
- 內容發(fā)布、內容獲取的方法、內容發(fā)布裝置及內容傳播系統(tǒng)
- 內容提供裝置、內容提供方法、內容再現(xiàn)裝置、內容再現(xiàn)方法
- 內容傳輸設備、內容傳輸方法、內容再現(xiàn)設備、內容再現(xiàn)方法、程序及內容分發(fā)系統(tǒng)
- 內容發(fā)送設備、內容發(fā)送方法、內容再現(xiàn)設備、內容再現(xiàn)方法、程序及內容分發(fā)系統(tǒng)
- 內容再現(xiàn)裝置、內容再現(xiàn)方法、內容再現(xiàn)程序及內容提供系統(tǒng)
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





