[發(fā)明專利]一種網(wǎng)頁解析并采集新聞的方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810444006.6 | 申請(qǐng)日: | 2018-05-10 |
| 公開(公告)號(hào): | CN108829729A | 公開(公告)日: | 2018-11-16 |
| 發(fā)明(設(shè)計(jì))人: | 梁莎莎;童晶;李天群;朱紅強(qiáng) | 申請(qǐng)(專利權(quán))人: | 河海大學(xué)常州校區(qū) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 南京經(jīng)緯專利商標(biāo)代理有限公司 32200 | 代理人: | 丁濤 |
| 地址: | 213022 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁解析 抓取 新聞數(shù)據(jù) 新聞條目 信息挖掘 篩選 解析 統(tǒng)一資源定位符 采集 關(guān)鍵字判斷 信息準(zhǔn)確度 目標(biāo)網(wǎng)頁 挖掘算法 網(wǎng)絡(luò)新聞 網(wǎng)頁信息 新聞內(nèi)容 用戶定義 用戶需求 預(yù)設(shè)標(biāo)準(zhǔn) 通用的 自定義 多層 鏈接 涵蓋 發(fā)布 配合 渠道 | ||
1.一種網(wǎng)頁解析并采集新聞的方法,其特征在于,包括:
A1.抓取多個(gè)涵蓋新聞條目和新聞數(shù)據(jù)的目標(biāo)網(wǎng)頁信息,所抓取的目標(biāo)網(wǎng)頁信息包含統(tǒng)一資源定位符URL地址;
A2.解析步驟A1中所抓取的包含統(tǒng)一資源定位符URL地址的網(wǎng)頁信息,獲得多個(gè)網(wǎng)頁解析信息,其中包涵標(biāo)題、摘要、新聞圖片和新聞鏈接信息;
A3.獲取用戶輸入的關(guān)鍵字判斷A2中獲得的網(wǎng)頁解析信息是否符合預(yù)設(shè)標(biāo)準(zhǔn)以及用戶需求;
A4.使用半智能化的方式,即通過通用的鏈接挖掘算法并配合用戶自定義的信息挖掘條件來獲限制,自定義的信息挖掘條件主要包括缺省設(shè)置,關(guān)鍵字查詢;
A5.提取步驟A3中符合要求的且符合步驟A4中限制條件的新聞列表并獲取新聞內(nèi)容,并對(duì)新聞數(shù)據(jù)進(jìn)行多層篩選,包括語言篩選,條目顯示在主界面中,呈現(xiàn)給用戶。
2.根據(jù)權(quán)利要求1 所述的一種網(wǎng)頁解析并采集新聞的方法,其特征在于,在步驟A1和步驟A2間還包括步驟A11,判斷所述的目標(biāo)網(wǎng)頁信息的URL地址是否可以解析或是否已被解析過,若可以解析且未被解析過,則進(jìn)入步驟A2,若不可解析或已被解析過,則丟棄此URL地址。
3.根據(jù)權(quán)利要求1所述的一種網(wǎng)頁解析并采集新聞的方法,其特征在于,所述步驟A2中為了從目標(biāo)網(wǎng)頁信息中解析獲取新聞內(nèi)容,采用解析網(wǎng)頁源文件的方式來獲取新聞內(nèi)容。
4.根據(jù)權(quán)利要求1 所述的一種網(wǎng)頁解析并采集新聞的方法,其特征在于,所述網(wǎng)頁解析并采集新聞的方法支持根據(jù)發(fā)布者自定義的URL,將對(duì)應(yīng)的頁面作為數(shù)據(jù)源,并采用步驟A3和A4中所述方法自定義篩選,獲取該頁面所有符合條件的新聞條目。
5. 根據(jù)權(quán)利要求1 所述的一種網(wǎng)頁解析及新聞采集方法,其特征在于,在步驟A2中,對(duì)于解析后不可用的新聞源,選擇以通用的鏈接挖掘算法獲取所有鏈接數(shù)據(jù),當(dāng)頁面包含的數(shù)據(jù)編碼與當(dāng)前編碼不同而產(chǎn)生中文亂碼時(shí),改變當(dāng)前字符集編碼來解析包含的中文。
6. 根據(jù)權(quán)利要求1 所述的一種網(wǎng)頁解析并采集新聞的方法,其特征在于,所述步驟A1中,在抓取目標(biāo)網(wǎng)頁信息時(shí),采用通用的鏈接挖掘算法采集頁面上包含的信息,包含URL地址,標(biāo)題,摘要,圖片,類型,編輯時(shí)間和來源。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河海大學(xué)常州校區(qū),未經(jīng)河海大學(xué)常州校區(qū)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810444006.6/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種醫(yī)學(xué)術(shù)語庫的存儲(chǔ)方法和裝置
- 下一篇:一種對(duì)日志數(shù)據(jù)進(jìn)行存儲(chǔ)的方法、裝置及其可讀存儲(chǔ)介質(zhì)
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 新聞數(shù)據(jù)生成、顯示方法和裝置
- 基于新聞客戶端的數(shù)據(jù)采集方法及裝置
- 一種基于大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)對(duì)新聞管控的方法及裝置
- 一種新聞播放方法和裝置
- 服務(wù)器存儲(chǔ)新聞的存儲(chǔ)資源優(yōu)化方法及系統(tǒng)
- 一種新聞熱度的計(jì)算方法
- 一種基于大數(shù)據(jù)處理的新聞傳播方法及系統(tǒng)
- 一種基于多模態(tài)融合的假新聞檢測(cè)方法
- 一種新聞數(shù)據(jù)在多平臺(tái)展示的方法及其系統(tǒng)
- 一種新聞?shì)浨橹R(shí)圖譜的構(gòu)建方法及裝置、介質(zhì)、設(shè)備





