[發明專利]獲取網頁的閱讀量的方法和裝置有效
| 申請號: | 201611219659.1 | 申請日: | 2016-12-26 |
| 公開(公告)號: | CN108241680B | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | 朱波 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/958 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 韓建偉;張永明 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 獲取 網頁 閱讀 方法 裝置 | ||
本發明公開了一種獲取網頁的閱讀量的方法和裝置。其中,該方法包括:識別網頁頁面中的至少一個文本對象;將至少一個文本對象與網頁頁面的至少一個特征標簽進行匹配,其中,特征標簽包括如下至少之一:前特征標簽和后特征標簽,前特征標簽用于表征網頁頁面中位于閱讀量的顯示區域之前的特征詞,后特征標簽用于表征網頁頁面中位于閱讀量的顯示區域之后的特征詞;在匹配成功的情況下,根據特征標簽獲取網頁頁面中所顯示的數字的特征值;根據網頁頁面中所顯示的數字的特征值確定網頁頁面的閱讀量。本發明解決了由于對不同網站提取同一頁面信息需要配置不同的解析規則而造成的獲取網頁信息工作量大、效率低的技術問題。
技術領域
本發明涉及網頁技術領域,具體而言,涉及一種獲取網頁的閱讀量的方法和裝置。
背景技術
信息抽取是從自然語言文本中抽取指定信息。隨著大數據時代的到來,大量的網絡文本里包含的信息也越來越多,如何在大量的網頁信息中快速有效的提取出有用的信息是目前急需解決的事情。網頁的閱讀量是反映網絡文章內容價值的重要指標,并且可以進一步反映不同網站之間訪問量的差異,所以從網頁中有效的提取出網頁的閱讀量也是網頁信息抽取任務中的一部分。目前,在網頁信息抽取任務中,一般利用HtmlParser、Dom等方式解析Html頁面標簽,并通過具體的標簽來提取出所需的信息。由于提取的內容主要是通過Html頁面標簽來完成的,所以在眾多不同的網站上對同一頁面信息進行提取時,需要對不同的網站配置獨有的解析規則,該過程需要投入大量的人力,并且提取網頁信息的效率比較低。
針對上述由于對不同網站提取同一頁面信息需要配置不同的解析規則而造成的獲取網頁信息工作量大、效率低的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種獲取網頁的閱讀量的方法和裝置,以至少解決由于對不同網站提取同一頁面信息需要配置不同的解析規則而造成的獲取網頁信息工作量大、效率低的技術問題。
根據本發明實施例的一個方面,提供了一種獲取網頁的閱讀量的方法,包括:識別網頁頁面中的至少一個文本對象;將至少一個文本對象與網頁頁面的至少一個特征標簽進行匹配,其中,特征標簽包括如下至少之一:前特征標簽和后特征標簽,前特征標簽用于表征網頁頁面中位于閱讀量的顯示區域之前的特征詞,后特征標簽用于表征網頁頁面中位于閱讀量的顯示區域之后的特征詞;在匹配成功的情況下,根據特征標簽獲取網頁頁面中所顯示的數字的特征值;根據網頁頁面中所顯示的數字的特征值確定網頁頁面的閱讀量。
根據本發明實施例的另一方面,還提供了一種獲取網頁的閱讀量的裝置,包括:識別模塊,用于識別網頁頁面中的至少一個文本對象;匹配模塊,用于將至少一個文本對象與網頁頁面的至少一個特征標簽進行匹配,其中,特征標簽包括如下至少之一:前特征標簽和后特征標簽,前特征標簽用于表征網頁頁面中位于閱讀量的顯示區域之前的特征詞,后特征標簽用于表征網頁頁面中位于閱讀量的顯示區域之后的特征詞;第一獲取模塊,用于在匹配成功的情況下,根據特征標簽獲取網頁頁面中所顯示的數字的特征值;第二獲取模塊,用于根據網頁頁面中所顯示的數字的特征值確定網頁頁面的閱讀量。
在本發明實施例中,采用標簽匹配的方式,通過識別網頁頁面中的文本對象,并將該文本對象與網頁頁面中的特征標簽進行匹配,在匹配成功的情況下,獲取網頁頁面中數字的特征值,根據該數字特征值確定網頁頁面的閱讀量,達到了無需對不同網站的頁面進行Html標簽解析,自動識別不同網站頁面閱讀量,從而實現了快速高效獲取網頁頁面閱讀量的技術效果,進而解決了由于對不同網站提取同一頁面信息需要配置不同的解析規則而造成的獲取網頁信息工作量大、效率低的技術問題。
附圖說明
此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:
圖1是根據本發明實施例的一種獲取網頁的閱讀量的方法流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611219659.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據處理方法及裝置
- 下一篇:一種許可文件批量生成方法和系統





