[發(fā)明專利]對網(wǎng)頁文本內(nèi)容進(jìn)行提取的方法和裝置有效
| 申請?zhí)枺?/td> | 201210573022.8 | 申請日: | 2012-12-25 |
| 公開(公告)號: | CN103020266A | 公開(公告)日: | 2013-04-03 |
| 發(fā)明(設(shè)計(jì))人: | 謝洲為;潘洪學(xué);糜裕峰;任寰 | 申請(專利權(quán))人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市隆安律師事務(wù)所 11323 | 代理人: | 權(quán)鮮枝;齊輝 |
| 地址: | 100088 北京市西城區(qū)新*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁 文本 內(nèi)容 進(jìn)行 提取 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種對網(wǎng)頁文本內(nèi)容進(jìn)行提取的方法和裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的普及,網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的重要途徑之一,網(wǎng)頁中的文本內(nèi)容是信息的主要載體。然而,通常情況下網(wǎng)頁中除了文本內(nèi)容,還包括大量廣告圖片、非文章內(nèi)容等無用信息,嚴(yán)重影響了用戶的閱讀體驗(yàn)。
現(xiàn)有技術(shù)提供的提取網(wǎng)頁文本內(nèi)容的方案中,網(wǎng)頁在瀏覽器中加載完畢后,將網(wǎng)頁中的內(nèi)容進(jìn)行拆分,然后由瀏覽器中的匹配規(guī)則文件對網(wǎng)頁內(nèi)容進(jìn)行定位,抽取出所需的字段內(nèi)容并顯示出來,從而用戶可以看到文本篩選后的網(wǎng)頁,使用戶能夠方便和專注的閱讀。
現(xiàn)有提取網(wǎng)頁文本內(nèi)容的方案中至少存在如下缺陷:
現(xiàn)有方案針對某一預(yù)定網(wǎng)頁結(jié)構(gòu)設(shè)置一匹配規(guī)則文件,該匹配規(guī)則文件僅適用于預(yù)定結(jié)構(gòu)下網(wǎng)頁文本內(nèi)容的提取,然而由于網(wǎng)絡(luò)資源的更新速度非常快,網(wǎng)頁結(jié)構(gòu)會時(shí)常變動(dòng),則已有的匹配規(guī)則文件將無法對變動(dòng)后的網(wǎng)頁進(jìn)行文本提取,而重新生成新的匹配規(guī)則文件,再將新的匹配規(guī)則文件設(shè)置在瀏覽器中,又導(dǎo)致實(shí)現(xiàn)匹配的操作過于繁瑣,工作量較大、效率低下。
發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的對網(wǎng)頁文本內(nèi)容進(jìn)行提取的方法和裝置。
依據(jù)本發(fā)明的一個(gè)方面,本發(fā)明實(shí)施例提供了一種對網(wǎng)頁文本內(nèi)容進(jìn)行提取的方法,包括:在瀏覽器側(cè)預(yù)設(shè)至少一網(wǎng)頁文本內(nèi)容匹配設(shè)置;在瀏覽器側(cè)進(jìn)行網(wǎng)頁內(nèi)容下載;將網(wǎng)頁內(nèi)容分別與網(wǎng)頁文本內(nèi)容匹配設(shè)置進(jìn)行匹配,直至網(wǎng)頁內(nèi)容匹配成功;利用與網(wǎng)頁內(nèi)容匹配成功的網(wǎng)頁文本內(nèi)容匹配設(shè)置,提取網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容。
本發(fā)明另一個(gè)實(shí)施例還提供了一種對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置,包括:匹配設(shè)置配置單元,適于在瀏覽器側(cè)預(yù)設(shè)至少一網(wǎng)頁文本內(nèi)容匹配設(shè)置;下載單元,適于在瀏覽器側(cè)進(jìn)行網(wǎng)頁內(nèi)容下載;匹配單元,適于將網(wǎng)頁內(nèi)容分別與網(wǎng)頁文本內(nèi)容匹配設(shè)置進(jìn)行匹配,直至網(wǎng)頁內(nèi)容匹配成功;提取單元,適于利用與網(wǎng)頁內(nèi)容匹配成功的網(wǎng)頁文本內(nèi)容匹配設(shè)置,提取網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容。
由上所述,本發(fā)明實(shí)施例通過在瀏覽器側(cè)建立多個(gè)網(wǎng)頁文本內(nèi)容匹配設(shè)置,并將同一網(wǎng)頁文本內(nèi)容與多個(gè)網(wǎng)頁文本內(nèi)容匹配設(shè)置進(jìn)行匹配的技術(shù)手段,在網(wǎng)頁內(nèi)容發(fā)生變化時(shí),能夠從多個(gè)網(wǎng)頁文本內(nèi)容匹配設(shè)置中找到與發(fā)生變化的網(wǎng)頁相匹配的網(wǎng)頁文本內(nèi)容匹配設(shè)置,從而能夠利用匹配成功的網(wǎng)頁文本內(nèi)容匹配設(shè)置提取出網(wǎng)頁文本內(nèi)容。并且,本方案避免了在網(wǎng)頁內(nèi)容變化時(shí),需要生成新的匹配規(guī)則文件并設(shè)置在瀏覽器中的操作,簡化了實(shí)現(xiàn)匹配的操作,降低了工作量,提高了效率。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說明
通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置結(jié)構(gòu)示意圖;
圖2示出了根據(jù)本發(fā)明又一個(gè)實(shí)施例的對網(wǎng)頁文本內(nèi)容進(jìn)行提取的方法流程圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
本發(fā)明一個(gè)實(shí)施例提供了一種對網(wǎng)頁文本內(nèi)容可進(jìn)行提取的裝置,能夠在保證文本提取速度和穩(wěn)定性的前提下,向用戶提供更加方便和專注的閱讀服務(wù)。參見圖1,該裝置包括匹配設(shè)置配置單元100、下載單元101、匹配單元102、提取單元103、加載控制單元104、過濾單元105、匹配設(shè)置更新單元106、多線程控制單元107、輸入單元108和上傳單元109。下面分別對各單元進(jìn)行說明。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經(jīng)北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210573022.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法





