[發明專利]特征文本抽取方法及裝置有效
| 申請號: | 201710581110.5 | 申請日: | 2017-07-17 |
| 公開(公告)號: | CN107451215B | 公開(公告)日: | 2021-01-01 |
| 發明(設計)人: | 晉彤 | 申請(專利權)人: | 云潤大數據服務有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/35;G06F40/221 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510520 廣東省廣州市天*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征 文本 抽取 方法 裝置 | ||
本發明實施例公開了特征文本抽取方法及裝置,通過根據下載的網頁源代碼創建DOM樹,基于所述DOM樹定位待抽取網頁的文本域,再基于已定位的所述文本域,識別所述文本域的模式,根據所述文本域的模式,析出所述DOM樹的特征節點,然后根據所述DOM樹的特征節點,抽取所述待抽取網頁的特征文本,能有效解決現有抽取技術中人工規則和模板的弊端,能有效提取網頁內容,兼容性高,雜質去除完整。
技術領域
本發明涉及計算機領域,尤其涉及一種特征文本抽取方法及裝置。
背景技術
在新聞(或者資訊)搜索領域,新聞正文抽取是項必不可少的環節,其正文抽取的質量高低決定了新聞搜索的質量和用戶體驗。目前新聞正文抽取方法格式各樣,主要有基于模板(或包裝器)方式抽取。基于模板方式抽取:首先定義模板,然后編寫程序解析執行模板得到數據。根據模板生成方式,又可分為:人工模板抽取和自動模板抽取。人工模板抽取。針對抽取的目標站點,人工手工編寫模板,模板可以是正則匹配方式,也可以是簡單的字符串匹配首位匹配方式。自動模板抽取利用機器學習算法,從目標網站先獲取一部分網頁數據進行學習訓練,獲取模板,然后程序利用模板抽取數據。人工編寫模板方式的缺點是需要耗費巨大人力資源來撰寫模板,并且隨著目標網站的變化,維護模板的成本也非常大。無論是人工還是自動產生模板,其假設是網站的數據是通過模板產生,一些大型的網站基本問題不大,也就是不同的入口可能模板不同,但對眾多的中小網站而言,其模板化不是很好,利用模板抽取只能抽取大部分的信息,有較多的機會包含垃圾信息。
發明內容
本發明實施例的目的是提供一種特征文本抽取方法及裝置,能有效避免現有抽取技術中人工規則和模板的弊端,能有效提取網頁內容,兼容性高,雜質去除完整。
為實現上述目的,本發明實施例提供了一種特征文本抽取方法,包括步驟:
根據下載的網頁源代碼創建DOM樹,基于所述DOM樹定位待抽取網頁的文本域;
基于已定位的所述文本域,識別所述文本域的模式,根據所述文本域的模式,析出所述DOM樹的特征節點;
根據所述DOM樹的特征節點,抽取所述待抽取網頁的特征文本。
與現有技術相比,本發明公開的特征文本抽取方法通過根據下載的網頁源代碼創建DOM樹,基于所述DOM樹定位待抽取網頁的文本域,再基于已定位的所述文本域,識別所述文本域的模式,根據所述文本域的模式,析出所述DOM樹的特征節點,然后根據所述DOM樹的特征節點,抽取所述待抽取網頁的特征文本,能有效解決現有抽取技術中人工規則和模板的弊端,能有效提取網頁內容,兼容性高,雜質去除完整。
作為上述方案的改進,還包括步驟:
按照實際視覺效果對所述網頁頁面的特征文本進行整合和排版。
作為上述方案的改進,識別所述文本域的模式具體為:
識別所述文本域為單域或多域,從而進行自動適配。
作為上述方案的改進,識別所述文本域的模式具體為:
對大量的網頁結構進行模式訓練,提取正文在頁面的分布模型;其中,所述分布模型由輸入信息自適應學習增加新特征;
將所述網頁頁面的DOM樹進行分析處理,將所述DOM樹的每一節點進行分塊聚類獲得節點聚類結果;
將所述節點聚類結果通過所述分布模型抽取出必要特征,通過所述必要特征獲得所述文本域的模式。
本發明實施例還提供了一種特征文本抽取裝置,包括:
DOM樹創建模塊,用于根據下載的網頁源代碼創建DOM樹,基于所述DOM樹定位待抽取網頁的文本域;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云潤大數據服務有限公司,未經云潤大數據服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710581110.5/2.html,轉載請聲明來源鉆瓜專利網。





