[發明專利]特征文本抽取方法及裝置有效

申請號：	201710581110.5	申請日：	2017-07-17
公開（公告）號：	CN107451215B	公開（公告）日：	2021-01-01
發明（設計）人：	晉彤	申請（專利權）人：	云潤大數據服務有限公司
主分類號：	G06F16/953	分類號：	G06F16/953;G06F16/35;G06F40/221
代理公司：	暫無信息	代理人：	暫無信息
地址：	510520 廣東省廣州市天***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	特征文本抽取方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種特征文本抽取方法，其特征在于，包括步驟：

根據下載的網頁源代碼創建DOM樹，基于所述DOM樹定位待抽取網頁的文本域；

基于已定位的所述文本域，識別所述文本域的模式，識別所述文本域為單域或多域，包括識別文本密度、識別多元組屬性密度和識別概率密度，從而進行自動適配，根據所述文本域的模式，析出所述DOM樹的特征節點；其中，識別所述文本域的模式具體為：對大量的網頁結構進行模式訓練，提取正文在頁面的分布模型；其中，所述分布模型由輸入信息自適應學習增加新特征；將所述網頁頁面的DOM樹進行分析處理，將所述DOM樹的每一節點進行分塊聚類獲得節點聚類結果；將所述節點聚類結果通過所述分布模型抽取出必要特征，通過所述必要特征獲得所述文本域的模式；

根據所述DOM樹的特征節點，抽取所述待抽取網頁的特征文本；

按照實際視覺效果對所述網頁頁面的特征文本進行整合和排版。

2.一種特征文本抽取裝置，其特征在于，包括：

DOM樹創建模塊，用于根據下載的網頁源代碼創建DOM樹，基于所述DOM樹定位待抽取網頁的文本域；

特征節點解析模塊，用于基于已定位的所述文本域，識別所述文本域的模式，識別所述文本域為單域或多域，包括識別文本密度、識別多元組屬性密度和識別概率密度，從而進行自動適配，根據所述文本域的模式，析出所述DOM樹的特征節點；具體的，所述特征節點解析模塊識別所述文本域的模式具體為：對大量的網頁結構進行模式訓練，提取正文在頁面的分布模型；其中，所述分布模型由輸入信息自適應學習增加新特征；將所述網頁頁面的DOM樹進行分析處理，將所述DOM樹的每一節點進行分塊聚類獲得節點聚類結果；將所述節點聚類結果通過所述分布模型抽取出必要特征，通過所述必要特征獲得所述文本域的模式；

特征文本抽取模塊，用于根據所述DOM樹的特征節點，抽取所述待抽取網頁的特征文本；

整合模塊，用于按照實際視覺效果對所述網頁頁面的正文語料進行整合和排版。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于云潤大數據服務有限公司，未經云潤大數據服務有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710581110.5/1.html，轉載請聲明來源鉆瓜專利網。