[發(fā)明專利]對網(wǎng)頁文本內(nèi)容進行提取的方法和裝置有效
| 申請?zhí)枺?/td> | 201210573022.8 | 申請日: | 2012-12-25 |
| 公開(公告)號: | CN103020266A | 公開(公告)日: | 2013-04-03 |
| 發(fā)明(設(shè)計)人: | 謝洲為;潘洪學(xué);糜裕峰;任寰 | 申請(專利權(quán))人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市隆安律師事務(wù)所 11323 | 代理人: | 權(quán)鮮枝;齊輝 |
| 地址: | 100088 北京市西城區(qū)新*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁 文本 內(nèi)容 進行 提取 方法 裝置 | ||
1.一種對網(wǎng)頁文本內(nèi)容進行提取的方法,包括:
在瀏覽器側(cè)預(yù)設(shè)至少一網(wǎng)頁文本內(nèi)容匹配設(shè)置;
在瀏覽器側(cè)進行網(wǎng)頁內(nèi)容下載;
將所述網(wǎng)頁內(nèi)容分別與所述網(wǎng)頁文本內(nèi)容匹配設(shè)置進行匹配,直至所述網(wǎng)頁內(nèi)容匹配成功;
利用與所述網(wǎng)頁內(nèi)容匹配成功的網(wǎng)頁文本內(nèi)容匹配設(shè)置,提取所述網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述在瀏覽器側(cè)預(yù)設(shè)至少一網(wǎng)頁文本內(nèi)容匹配設(shè)置包括:
建立一匹配設(shè)置文件并將所述至少一網(wǎng)頁文本內(nèi)容匹配設(shè)置保存在所述匹配設(shè)置文件中;
其中,所述匹配設(shè)置文件中包括至少一個網(wǎng)站節(jié)點,每個網(wǎng)站節(jié)點中包括至少一種網(wǎng)頁節(jié)點,至少部分所述網(wǎng)頁節(jié)點中設(shè)有兩個以上的匹配設(shè)置描述節(jié)點,每個匹配設(shè)置描述節(jié)點對應(yīng)一網(wǎng)頁文本內(nèi)容匹配設(shè)置,至少兩個所述網(wǎng)頁文本內(nèi)容的匹配設(shè)置中分別包括對相同類型文本內(nèi)容的不同匹配設(shè)置項。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述網(wǎng)頁內(nèi)容分別與所述網(wǎng)頁文本內(nèi)容匹配設(shè)置進行匹配,直至所述網(wǎng)頁內(nèi)容匹配成功包括:
在所述匹配設(shè)置文件中查找所述網(wǎng)頁內(nèi)容對應(yīng)的網(wǎng)站節(jié)點及網(wǎng)頁節(jié)點;
在查找到的網(wǎng)頁節(jié)點下,將所述網(wǎng)頁內(nèi)容與該網(wǎng)頁節(jié)點中的第一匹配設(shè)置描述節(jié)點中的匹配設(shè)置項依次進行匹配;
對匹配成功的匹配設(shè)置項,將匹配結(jié)果設(shè)置為利用該匹配設(shè)置項提取出的網(wǎng)頁文本內(nèi)容;
對匹配失敗的匹配設(shè)置項,在該網(wǎng)頁節(jié)點中除第一匹配設(shè)置描述節(jié)點之外的匹配設(shè)置描述節(jié)點中查找與該匹配失敗的匹配設(shè)置項相對應(yīng)的匹配設(shè)置項,將查找到的匹配設(shè)置項與所述網(wǎng)頁內(nèi)容進行匹配,直至查找到的匹配設(shè)置項與所述網(wǎng)頁內(nèi)容匹配成功,并將匹配結(jié)果設(shè)置為根據(jù)該匹配設(shè)置項提取出的網(wǎng)頁文本內(nèi)容。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述利用與所述網(wǎng)頁內(nèi)容匹配成功的網(wǎng)頁文本內(nèi)容匹配設(shè)置,提取所述網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容包括:
將所有根據(jù)所述匹配成功的匹配設(shè)置項提取出的網(wǎng)頁文本內(nèi)容作為識別出的所述網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述建立一匹配設(shè)置文件并將所述至少一網(wǎng)頁文本內(nèi)容匹配設(shè)置保存在所述匹配設(shè)置文件中包括:
為每種類型的網(wǎng)站建立一個網(wǎng)站節(jié)點;
在一個網(wǎng)站節(jié)點下,為該網(wǎng)站節(jié)點相應(yīng)的網(wǎng)站下每種類型的網(wǎng)頁建立一個網(wǎng)頁節(jié)點;
根據(jù)網(wǎng)頁的內(nèi)容建立每個網(wǎng)頁節(jié)點的匹配設(shè)置描述節(jié)點中的匹配設(shè)置項,其中在網(wǎng)頁節(jié)點的第一匹配設(shè)置描述節(jié)點中,為該網(wǎng)頁節(jié)點相應(yīng)的網(wǎng)頁中每種類型的文本內(nèi)容建立至少一條匹配設(shè)置項;以及
對于網(wǎng)頁中相同類型的文本內(nèi)容,在所述第一匹配設(shè)置描述節(jié)點中建立的匹配設(shè)置項和在該網(wǎng)頁節(jié)點中除第一匹配設(shè)置描述節(jié)點之外的匹配設(shè)置描述節(jié)點中建立的匹配設(shè)置項各不相同。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述網(wǎng)頁節(jié)點中設(shè)置下載模式屬性和元素過濾屬性,所述元素過濾屬性指示的過濾方式包括:過濾圖片、過濾級聯(lián)樣式表CSS、過濾Javascript腳本語言、過濾框架、過濾對象和過濾嵌入內(nèi)容中的一種或多種,
在查找到的網(wǎng)頁節(jié)點下,將所述網(wǎng)頁內(nèi)容與該網(wǎng)頁節(jié)點中的第一匹配設(shè)置描述節(jié)點中的匹配設(shè)置項依次進行匹配的步驟之前,所述方法進一步包括:
判斷所述查找到的網(wǎng)頁節(jié)點中的下載模式屬性的屬性值是否為預(yù)定值,若是,根據(jù)元素過濾屬性指示的過濾方式對網(wǎng)頁中的內(nèi)容進行過濾,然后在查找到的網(wǎng)頁節(jié)點下,將過濾后的網(wǎng)頁內(nèi)容與該網(wǎng)頁節(jié)點中的第一匹配設(shè)置描述節(jié)點中的匹配設(shè)置項依次進行匹配;若否,直接將所述網(wǎng)頁內(nèi)容下載在瀏覽器中。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述網(wǎng)頁文本內(nèi)容匹配設(shè)置包括為網(wǎng)頁內(nèi)容的統(tǒng)一資源定位符URL建立網(wǎng)頁URL匹配設(shè)置項,
所述網(wǎng)頁URL匹配設(shè)置項中包含:匹配屬性設(shè)置項,所述匹配屬性設(shè)置項包括:
網(wǎng)頁URL以預(yù)定內(nèi)容作為開頭;和/或,
網(wǎng)頁URL包含預(yù)定內(nèi)容,該預(yù)定內(nèi)容的預(yù)定位置包含任意字符;和/或,
網(wǎng)頁URL不包含預(yù)定內(nèi)容,該預(yù)定內(nèi)容包含任意字符。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經(jīng)北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210573022.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種河工模型試驗斷面板制作方法
- 下一篇:一種在線購物平臺的商品檢索方法
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法





