[發(fā)明專利]輕量級智能網頁內容解析方法有效
| 申請?zhí)枺?/td> | 201010126329.4 | 申請日: | 2010-03-18 |
| 公開(公告)號: | CN101819584A | 公開(公告)日: | 2010-09-01 |
| 發(fā)明(設計)人: | 不公告發(fā)明人 | 申請(專利權)人: | 上海引跑信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 201203 上海市浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 輕量級 智能 網頁 內容 解析 方法 | ||
1.一種輕量級智能網頁內容解析方法,其特征在于:
1)從因特網獲取網頁的HTML源碼,但并不獲取網頁中引用的圖片、腳 本資源,其目的是獲取網頁的文本數(shù)據;
2)利用HTML源碼的結構化、層次化特性,構建數(shù)據對象,同時對不完 整的HTML源碼進行補充,確保每個標簽都是完整閉合,便于后續(xù)對 標簽所包含數(shù)據的分析;
3)遵循網頁構建時候的基本特征和開發(fā)者的常規(guī)習慣,利用新聞、博客、 論壇等文章類型網頁的基本特征,系統(tǒng)自動從根節(jié)點開始遞歸,自上 而下對每個HTML標簽所包含的數(shù)據信息、文本信息、非文本信息、 超鏈信息所占比例進行統(tǒng)計、比較,以純文本信息量及相關比例為依 據,確認最可能的文章標題、主體內容的父節(jié)點;
4)對于獲取到的父節(jié)點,整理其所包含的文字信息,去除菜單、導航等 和文章內容無關的數(shù)據,最終獲取當前網頁的有效文字信息,即主要 內容和標題,并以自定義格式保存;
5)所有網頁都采取同樣的解析方式,并且保存為自定義格式時,均不包 含原有網頁的HTML結構和排版信息,整個解析過程自動完成,不需 要人工干預;
6)保存的網頁主體內容,作為文字數(shù)據材料,可供用戶處理,進行查看、 編輯、合并、索引、格式轉換,乃至編輯成冊;
7)通過任務調度功能,可以定制任務,定時更新結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海引跑信息科技有限公司,未經上海引跑信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010126329.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種層疊式水果運輸物流箱
- 下一篇:一種節(jié)能定時壽司保鮮盒
- 內容再現(xiàn)系統(tǒng)、內容提供方法、內容再現(xiàn)裝置、內容提供裝置、內容再現(xiàn)程序和內容提供程序
- 內容記錄系統(tǒng)、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統(tǒng)、內容服務器、內容終端及內容服務方法
- 內容分發(fā)系統(tǒng)、內容分發(fā)裝置、內容再生終端及內容分發(fā)方法
- 內容發(fā)布、內容獲取的方法、內容發(fā)布裝置及內容傳播系統(tǒng)
- 內容提供裝置、內容提供方法、內容再現(xiàn)裝置、內容再現(xiàn)方法
- 內容傳輸設備、內容傳輸方法、內容再現(xiàn)設備、內容再現(xiàn)方法、程序及內容分發(fā)系統(tǒng)
- 內容發(fā)送設備、內容發(fā)送方法、內容再現(xiàn)設備、內容再現(xiàn)方法、程序及內容分發(fā)系統(tǒng)
- 內容再現(xiàn)裝置、內容再現(xiàn)方法、內容再現(xiàn)程序及內容提供系統(tǒng)
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





