[發明專利]特征文本抽取方法及裝置有效
| 申請號: | 201710581110.5 | 申請日: | 2017-07-17 |
| 公開(公告)號: | CN107451215B | 公開(公告)日: | 2021-01-01 |
| 發明(設計)人: | 晉彤 | 申請(專利權)人: | 云潤大數據服務有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/35;G06F40/221 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510520 廣東省廣州市天*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征 文本 抽取 方法 裝置 | ||
1.一種特征文本抽取方法,其特征在于,包括步驟:
根據下載的網頁源代碼創建DOM樹,基于所述DOM樹定位待抽取網頁的文本域;
基于已定位的所述文本域,識別所述文本域的模式,識別所述文本域為單域或多域,包括識別文本密度、識別多元組屬性密度和識別概率密度,從而進行自動適配,根據所述文本域的模式,析出所述DOM樹的特征節點;其中,識別所述文本域的模式具體為:對大量的網頁結構進行模式訓練,提取正文在頁面的分布模型;其中,所述分布模型由輸入信息自適應學習增加新特征;將所述網頁頁面的DOM樹進行分析處理,將所述DOM樹的每一節點進行分塊聚類獲得節點聚類結果;將所述節點聚類結果通過所述分布模型抽取出必要特征,通過所述必要特征獲得所述文本域的模式;
根據所述DOM樹的特征節點,抽取所述待抽取網頁的特征文本;
按照實際視覺效果對所述網頁頁面的特征文本進行整合和排版。
2.一種特征文本抽取裝置,其特征在于,包括:
DOM樹創建模塊,用于根據下載的網頁源代碼創建DOM樹,基于所述DOM樹定位待抽取網頁的文本域;
特征節點解析模塊,用于基于已定位的所述文本域,識別所述文本域的模式,識別所述文本域為單域或多域,包括識別文本密度、識別多元組屬性密度和識別概率密度,從而進行自動適配,根據所述文本域的模式,析出所述DOM樹的特征節點;具體的,所述特征節點解析模塊識別所述文本域的模式具體為:對大量的網頁結構進行模式訓練,提取正文在頁面的分布模型;其中,所述分布模型由輸入信息自適應學習增加新特征;將所述網頁頁面的DOM樹進行分析處理,將所述DOM樹的每一節點進行分塊聚類獲得節點聚類結果;將所述節點聚類結果通過所述分布模型抽取出必要特征,通過所述必要特征獲得所述文本域的模式;
特征文本抽取模塊,用于根據所述DOM樹的特征節點,抽取所述待抽取網頁的特征文本;
整合模塊,用于按照實際視覺效果對所述網頁頁面的正文語料進行整合和排版。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云潤大數據服務有限公司,未經云潤大數據服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710581110.5/1.html,轉載請聲明來源鉆瓜專利網。





