[發明專利]一種基于標點連續性的通用網頁正文提取方法及其系統有效
| 申請號: | 201110446701.4 | 申請日: | 2011-12-27 |
| 公開(公告)號: | CN102591612A | 公開(公告)日: | 2012-07-18 |
| 發明(設計)人: | 胡海斌;趙庸;張雪峰 | 申請(專利權)人: | 廈門市美亞柏科信息股份有限公司 |
| 主分類號: | G06F7/20 | 分類號: | G06F7/20;G06F17/22 |
| 代理公司: | 廈門市首創君合專利事務所有限公司 35204 | 代理人: | 連耀忠 |
| 地址: | 361000 福建省廈門*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標點 連續性 通用 網頁 正文 提取 方法 及其 系統 | ||
1.一種基于標點連續性的通用網頁正文提取方法,其特征在于:包括如下步驟:
讀入文件,并把讀入的文件轉化為Unicode的字符流形式的html源代碼;
對html源代碼進行預處理,用預置的噪聲標記來去除html源代碼中存在的一些對于網頁正文提取無幫助作用的字符串;
生成html標記樹,通過預置的解析工具把html源代碼表示成標記樹的形式;
對標記樹中的正文格式信息進行處理,用預置的特定字符去替換對應的格式信息;
提取文本文字的節點并采用過濾算法生成html標記樹中的文字節點序列;
定義一個文章的常用標點集合P={。,:;“”…},以集合P中的節點對上一步驟中的文字節點序列進行重新的文字劃分,對于文字節點中的字符如果是集合P中的標點,則在標點后加分隔符或空格符作為分離的標志;
利用標點的延續性,抽取標點連續性最高的文字塊,返回為正文。
2.根據權利要求1所述的基于標點連續性的通用網頁正文提取方法,其特征在于:所述的抽取標點連續性最高的文字塊的處理過程,包括如下步驟:
a.以分隔符或空格符為劃分點對上一步驟處理后的字符串進行切分,切分后得到字符串數組A=[s1,s2,s3,…,sn],其中sn為一個短句;
b.遍歷數組A,把A中短句以集合P中的標點為結束的短句sm,加入到標點句數組B=[si,sj,sk,…,sn],并記錄短句的序號m;
c.依次計算集合B中元素的下標序號差j-i,k-j…,如果k-j大于閾值,則表示短句sj,sk之間不存在連續性,令短句集合si,si+1,si+2…sj,為當前最長標點連續字符串集合,緩存為L={si,si+1,si+2…sj};
d.重復步驟c,如果當前獲取的最長標點連續字符串集合長度大于L的長度,則替換L為當前獲取的最長標點連續字符串集合;
e.數組B被處理完畢后,集合L中的文字即為網頁正文。
3.一種基于標點連續性的通用網頁正文提取系統,其特征在于:包括:
讀入模塊,該讀入模塊用來讀入文件,并把讀入的文件轉化為Unicode的字符流形式的html源代碼;
去除噪聲標記信息模塊,該去除噪聲標記信息模塊用來對html源代碼進行預處理,用預置的噪聲標記來去除html源代碼中存在的一些對于網頁正文提取無幫助作用的字符串;
生成html標記樹模塊,該生成html標記樹模塊用來生成html標記樹,通過預置的解析工具把html源代碼表示成標記樹的形式;
處理正文格式信息模塊,該處理正文格式信息模塊用來對標記樹中的正文格式信息進行處理,用預置的特定字符去替換對應的格式信息;
提取文本節點生成文本句子序列模塊,該提取文本節點生成文本句子序列模塊用來提取文本文字的節點并采用過濾算法生成html標記樹中的文字節點序列;
利用常用的標點對文本序列塊重新分句模塊,該利用常用的標點對文本序列塊重新分句模塊用來定義一個文章的常用標點集合P={。,:;“”…},以集合P中的節點對上一步驟中的文字節點序列進行重新的文字劃分,對于文字節點中的字符如果是集合P中的標點,則在標點后加分隔符或空格符作為分離的標志;
利用標點的連續性原理提取最長連續正文模塊,該利用標點的連續性原理提取最長連續正文模塊用來利用標點的延續性,抽取標點連續性最高的文字塊,返回為正文。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門市美亞柏科信息股份有限公司,未經廈門市美亞柏科信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110446701.4/1.html,轉載請聲明來源鉆瓜專利網。





