[發(fā)明專利]一種文章實時智能抓取系統(tǒng)和方法無效
| 申請?zhí)枺?/td> | 201210008389.5 | 申請日: | 2012-01-12 |
| 公開(公告)號: | CN102609456A | 公開(公告)日: | 2012-07-25 |
| 發(fā)明(設計)人: | 吳華鵬;曾明;厲錕 | 申請(專利權(quán))人: | 鳳凰在線(北京)信息技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京瑞思知識產(chǎn)權(quán)代理事務所(普通合伙) 11341 | 代理人: | 李濤 |
| 地址: | 100029 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文章 實時 智能 抓取 系統(tǒng) 方法 | ||
技術(shù)領域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)中抓取技術(shù)、web挖掘技術(shù)、信息抽取技術(shù)、自然語言處理技術(shù)領域;可以應用于需要大規(guī)模精準、實時地抓取文章的門戶網(wǎng)站、搜索引擎網(wǎng)站等互聯(lián)網(wǎng)領域。
背景技術(shù)
本發(fā)明專利還具有更多傳統(tǒng)抓取系統(tǒng)沒有的優(yōu)點:
通過同站學習可以自動將網(wǎng)站中非文章頁面比如頻道頁、專題頁、列表頁、廣告頁過濾;
可以對抓取文章進行近似文檔排重;
可以對抓取文章進行語義理解,自動分類,自動生成摘要和關鍵詞;
可以準確尋找某文章數(shù)目50以內(nèi)的分頁序列并對分頁內(nèi)容進行順序合并;
可以對網(wǎng)站抓取范圍進行靈活配置。支持抓取網(wǎng)站、頻道、任意頁面上一個或多個列表區(qū)域所屬的文章。
在實際應用中,本抓取系統(tǒng)轉(zhuǎn)載文章質(zhì)量很高,可以直接對外發(fā)布面向用戶,同時自動適應上千個抓取網(wǎng)站的模版變化,極大的減少了抓取需要的人力參與,在大面積改善門戶類網(wǎng)站的新聞覆蓋度和實時性同時,也降低了門戶類網(wǎng)站的人力成本。
在所有門戶類網(wǎng)站中,本專利都有應用場景,可以有效改善其新聞的覆蓋度和實時性,同時降低人力成本。
同時新聞類搜索引擎中,本專利也可以應用。
信息抽取領域現(xiàn)在有很多技術(shù)方案,核心都是如何生成和維護抽取包裝器。技術(shù)上主要分下面兩類:
1)采用機器自動生成抽取包裝器技術(shù)的抽取系統(tǒng)可以大量抓取文章,但是無法做到文章的精準抽取,抓取文章的可用性低;
2)采用人工生成抽取包裝器技術(shù)的抽取系統(tǒng),文章抽取結(jié)果精準,但是要對互聯(lián)網(wǎng)上千個網(wǎng)站進行抽取包裝器的生成和更新維護工作,只能依賴大量的人力參與;
本發(fā)明專利的抽取模塊以自主研發(fā)的“基于同站學習和自動規(guī)則生成的文章自動抽取”方法為核心,很好地解決了上面兩個問題。
在實際應用中,本技術(shù)方案實現(xiàn)了抽取包裝器的機器自動生成和維護,使抽取不需要大量的人力參與;同時還實現(xiàn)了文章的精準抽取,抽取結(jié)果很少冗余和遺漏,可用性很高。
本發(fā)明中涉及一下技術(shù)術(shù)語,解釋如下:
抽取包裝器:網(wǎng)頁信息抽取是信息抽取中的一類,網(wǎng)頁信息抽取的包裝器生成技術(shù)目前發(fā)展成為一個較為獨立的領域。包裝器是由一系列抽取規(guī)則以及應用這些規(guī)則的計算機代碼組成的,專門從特定信息源中抽取需要的信息并返回結(jié)果的程序;
基于同站學習和自動規(guī)則生成的文章自動抽取方法:本發(fā)明包含的一個包裝器自動生成方法,可以精準智能的從網(wǎng)頁中抽取出文章信息;
同站學習:按網(wǎng)站為單位,收集一個網(wǎng)站足夠量的網(wǎng)頁,一起進行機器統(tǒng)計學習,進而從中生成需要的規(guī)則;
爬蟲(或者抓取爬蟲):抓取系統(tǒng)中單獨指負責網(wǎng)頁下載的模塊;
本系統(tǒng)研發(fā)的抽取包裝器包括兩個庫:
Style樹或者路徑庫:
Style的集合庫。Style指的是某個DOM節(jié)點在DOM樹中進行節(jié)點上尋,直到到body節(jié)點,構(gòu)建出的這樣一條路徑及其權(quán)重信息。在庫中,路徑都以網(wǎng)站為單位組織,同路徑合并成一條,并記錄頻率作為權(quán)重;
模式庫:
此處所謂模式包括
1)一個是方法中分段后每一段的如下特征碼:
模式=md5((內(nèi)容:text/img)+段落tag前向遍歷序列+site?name)+value
其中value是權(quán)重信息,也即模式的出現(xiàn)頻率。
2)還有一個是對這些段進行統(tǒng)計學習后生成的自動正則:
模式=正則。
代理技術(shù):
代理技術(shù)是指代理服務器接收客戶請求后會檢查驗證其合法性,如其合法,代理服務器像一臺客戶機一樣取回所需的信息再轉(zhuǎn)發(fā)給客戶;
實時抓取:
強調(diào)抓取的時效性的一種抓取技術(shù)。目標是抓取源站更新內(nèi)容后能夠?qū)崟r抓取到。
發(fā)明內(nèi)容
本發(fā)明較好的解決了上述問題。
根據(jù)本發(fā)明的文章實時智能抓取系統(tǒng),包括實時抓取模塊、網(wǎng)頁抽取系統(tǒng)、文檔近似排重模塊、文檔自動分類模塊和文章發(fā)布模塊。
其中所述實時抓取模塊包括線上和線下兩個子模塊。線上運行子模塊如下:
任務提取模塊,從任務(job)集合中輪流提取一個job;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于鳳凰在線(北京)信息技術(shù)有限公司,未經(jīng)鳳凰在線(北京)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210008389.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種用于水體中的浮艙式潛水電泵及其安裝方法
- 下一篇:注射裝置





