日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

首頁在售求購查詢申請展會資訊專利榜企服商城升級VIP

立即登錄免費注冊

在售專利
求購專利
查詢專利
新聞資訊
技術展會
招商加盟
專利榜

本網專利代理業務由天津創信方達專利代理事務所(普通合伙)承接機構代碼：12247 本網專利代理業務由天津創信方達專利代理事務所(普通合伙)承接機構代碼：12247 本網專利代理業務由天津創信方達專利代理事務所(普通合伙)承接機構代碼：12247

本網專利代理業務由天津創信方達專利代理事務所(普通合伙)承接機構代碼：12247 本網專利代理業務由天津創信方達專利代理事務所(普通合伙)承接機構代碼：12247 本網專利代理業務由天津創信方達專利代理事務所(普通合伙)承接機構代碼：12247

[發明專利]一種基于標點連續性的通用網頁正文提取方法及其系統有效

申請號：	201110446701.4	申請日：	2011-12-27
公開（公告）號：	CN102591612A	公開（公告）日：	2012-07-18
發明（設計）人：	胡海斌;趙庸;張雪峰	申請（專利權）人：	廈門市美亞柏科信息股份有限公司
主分類號：	G06F7/20	分類號：	G06F7/20;G06F17/22
代理公司：	廈門市首創君合專利事務所有限公司 35204	代理人：	連耀忠
地址：	361000 福建省廈門***	國省代碼：	福建;35
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于標點連續性通用網頁正文提取方法及其系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于標點連續性的通用網頁正文提取方法，其特征在于：包括如下步驟：

讀入文件，并把讀入的文件轉化為Unicode的字符流形式的html源代碼；

對html源代碼進行預處理，用預置的噪聲標記來去除html源代碼中存在的一些對于網頁正文提取無幫助作用的字符串；

生成html標記樹，通過預置的解析工具把html源代碼表示成標記樹的形式；

對標記樹中的正文格式信息進行處理，用預置的特定字符去替換對應的格式信息；

提取文本文字的節點并采用過濾算法生成html標記樹中的文字節點序列；

定義一個文章的常用標點集合P＝{。，：；“”…}，以集合P中的節點對上一步驟中的文字節點序列進行重新的文字劃分，對于文字節點中的字符如果是集合P中的標點，則在標點后加分隔符或空格符作為分離的標志；

利用標點的延續性，抽取標點連續性最高的文字塊，返回為正文。

2.根據權利要求1所述的基于標點連續性的通用網頁正文提取方法，其特征在于：所述的抽取標點連續性最高的文字塊的處理過程，包括如下步驟：

a.以分隔符或空格符為劃分點對上一步驟處理后的字符串進行切分，切分后得到字符串數組A＝[s₁，s₂，s₃，…，s_n]，其中s_n為一個短句；

b.遍歷數組A，把A中短句以集合P中的標點為結束的短句s_m，加入到標點句數組B＝[s_i，s_j，s_k，…，s_n]，并記錄短句的序號m；

c.依次計算集合B中元素的下標序號差j-i，k-j…，如果k-j大于閾值，則表示短句s_j，s_k之間不存在連續性，令短句集合s_i，s_i+1，s_i+2…s_j，為當前最長標點連續字符串集合，緩存為L＝{s_i，s_i+1，s_i+2…s_j}；

d.重復步驟c，如果當前獲取的最長標點連續字符串集合長度大于L的長度，則替換L為當前獲取的最長標點連續字符串集合；

e.數組B被處理完畢后，集合L中的文字即為網頁正文。

3.一種基于標點連續性的通用網頁正文提取系統，其特征在于：包括：

讀入模塊，該讀入模塊用來讀入文件，并把讀入的文件轉化為Unicode的字符流形式的html源代碼；

去除噪聲標記信息模塊，該去除噪聲標記信息模塊用來對html源代碼進行預處理，用預置的噪聲標記來去除html源代碼中存在的一些對于網頁正文提取無幫助作用的字符串；

生成html標記樹模塊，該生成html標記樹模塊用來生成html標記樹，通過預置的解析工具把html源代碼表示成標記樹的形式；

處理正文格式信息模塊，該處理正文格式信息模塊用來對標記樹中的正文格式信息進行處理，用預置的特定字符去替換對應的格式信息；

提取文本節點生成文本句子序列模塊，該提取文本節點生成文本句子序列模塊用來提取文本文字的節點并采用過濾算法生成html標記樹中的文字節點序列；

利用常用的標點對文本序列塊重新分句模塊，該利用常用的標點對文本序列塊重新分句模塊用來定義一個文章的常用標點集合P＝{。，：；“”…}，以集合P中的節點對上一步驟中的文字節點序列進行重新的文字劃分，對于文字節點中的字符如果是集合P中的標點，則在標點后加分隔符或空格符作為分離的標志；

利用標點的連續性原理提取最長連續正文模塊，該利用標點的連續性原理提取最長連續正文模塊用來利用標點的延續性，抽取標點連續性最高的文字塊，返回為正文。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于廈門市美亞柏科信息股份有限公司，未經廈門市美亞柏科信息股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201110446701.4/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種預留空間的三氧化二鐵@聚吡咯復合電極材料的制備方法
下一篇：油泵連接法蘭孔位檢具

同類專利

專利分類

G06 計算；推算；計數
G06F 電數字數據處理
G06F7-00 通過待處理的數據的指令或內容進行運算的數據處理的方法或裝置
G06F7-02 .比較數字值的
G06F7-06 .將單個記錄載體上的數據進行排序、選擇、合并或比較的裝置
G06F7-22 .用于排序或合并在連續記錄載體
G06F7-38 .只利用數制表示，例如利用二進制、三進制、十進制表示來完成計算的方法或裝置
G06F7-58 .隨機數或偽隨機數發生器

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】

友情鏈接：交換友情鏈接需要網站權重大于4，網站收錄10W以上，如符合條件，請聯系QQ：。

關于我們尋求報道投稿須知廣告合作版權聲明網站地圖友情鏈接企業標識聯系我們

在線咨詢

周一至周五 9:00-18:00

版權所有http://www.szxzyx.cn/公布日期

咨詢在線客服

咨詢在線客服

tel code back_top

主站蜘蛛池模板：日韩亚洲精品在线| 91精彩刺激对白露脸偷拍| 欧美精品一区二区三区视频| 日本白嫩的18sex少妇hd| 国产精品久久久久久亚洲调教| 一区二区三区国产欧美| 少妇**毛片| 国产精品丝袜综合区另类| 国产日韩精品一区二区| 国内久久精品视频| 国产乱淫精品一区二区三区毛片| 免费精品99久久国产综合精品应用| 91亚洲精品国偷拍自产| 制服丝袜二区| 国产精品白浆视频| 日韩精品少妇一区二区在线看| 欧美激情视频一区二区三区免费 | 国产九九影院| 年轻bbwwbbww高潮| 精品国产免费久久| 91高清一区| 一区二区三区日韩精品| 亚洲美女在线一区| 99久久婷婷国产精品综合| 欧美一区二区三区高清视频| 97人人模人人爽人人喊38tv| 狠狠色噜噜狠狠狠888奇米| 亚洲国产精品97久久无色| 国产91九色视频| 欧洲在线一区| 91精品视频一区二区三区| 91麻豆精品一区二区三区| 精品无码久久久久国产| 日韩久久精品一区二区| 2023国产精品自产拍在线观看| 国产一区二区91| 91精品国产高清一区二区三区 | 国产一区二区午夜| 中文字幕区一区二| 96国产精品视频| 午夜爽爽视频| 亚洲欧美一区二区三区1000| 亚洲欧美国产精品久久| 国产乱老一区视频| 中文字幕在线播放一区| 国产精品视频1区2区3区| 日本道欧美一区二区aaaa| 中文字幕久久精品一区| 97人人澡人人添人人爽超碰| 狠狠综合久久av一区二区老牛| 在线国产精品一区二区| 国产麻豆精品一区二区| 农村妇女精品一二区| 综合在线一区| 国产一二区精品| 热久久国产| 欧美视频1区| 国语精品一区| 欧美一区视频观看| 国产精一区二区| 国产一区在线视频播放| 欧美高清性xxxx| 最新国产一区二区| 99久久国产综合精品麻豆| 粉嫩久久久久久久极品| 国产97在线看| 少妇av一区二区三区| 午夜亚洲影院| 精品久久久久久亚洲综合网| 97视频一区| 国产精品高潮呻吟三区四区| 国内精品国产三级国产99| 欧美日韩卡一卡二| 中文字幕制服丝袜一区二区三区| 日韩精品一区二区三区在线| 欧美精品粉嫩高潮一区二区| 制服丝袜二区| 国产91在| 91人人爽人人爽人人精88v| 日韩a一级欧美一级在线播放| 精品少妇一区二区三区免费观看焕| 欧美一区二区三区久久久久久桃花 | 午夜片在线| 亚洲国产精品一区二区久久hs| 综合在线一区| 国产三级欧美三级日产三级99| 国产精品乱码一区| 国产精品中文字幕一区二区三区| 国产超碰人人模人人爽人人添| 亚洲1区在线观看| 久久婷婷国产香蕉| 午夜av网址| 国产日产精品一区二区| 一本一道久久a久久精品综合蜜臀国产三级在线视频一区二区三区日韩欧美中文字幕一区 | 久久99国产视频| 午夜理伦影院| 538国产精品一区二区免费视频| 日本免费电影一区二区三区| 国产精品视频99| 欧美精品一区二区性色| 国产美女视频一区二区三区| 久久一二区| 亚洲福利视频二区| 国产欧美亚洲一区二区| 欧美日韩偷拍一区| 久久婷婷国产香蕉| 久久影视一区二区| 欧美日韩国产在线一区| 国产亚洲精品综合一区 | 欧美三级午夜理伦三级老人| 国产www亚洲а∨天堂| 999久久国精品免费观看网站| 91麻豆文化传媒在线观看| 国产国产精品久久久久| 伊人av综合网| 日日噜噜夜夜狠狠| 亚洲乱亚洲乱妇50p| 岛国黄色av| 久久久久久国产精品免费| 国产一区二区精品免费| 国产精品国精产品一二三区| 午夜av电影网| 一区不卡av| 国产免费一区二区三区四区| 国产精品久久久久久久岛一牛影视| 国产电影一区二区三区下载| 狠狠色狠狠色综合系列| av午夜在线| 狠狠色狠狠综合久久| 国产美女一区二区三区在线观看| 亚洲午夜天堂吃瓜在线| 日本中文字幕一区| 538国产精品| 日韩精品一二区| 国产91免费在线| 日韩a一级欧美一级在线播放| 狠狠色噜噜狠狠狠狠黑人| 大伊人av| 免费a级毛片18以上观看精品| 久久中文一区| 国产区图片区一区二区三区| 欧美日韩国产欧美| 国产欧美亚洲精品| 国产91刺激对白在线播放| 久久久久久久国产| 在线国产精品一区| 性色av色香蕉一区二区| 91精品一区| 国产乱码精品一区二区三区中文| 91精品丝袜国产高跟在线| 免费看性生活片| 91偷自产一区二区三区精品| 国产欧美视频一区二区三区| 国产999精品视频| 激情aⅴ欧美一区二区三区| 国产精华一区二区精华| 欧美久久久一区二区三区| 鲁丝一区二区三区免费| 91久久国产露脸精品| 国产69精品久久久久9999不卡免费| 丝袜美腿诱惑一区二区| 一区二区在线精品| 日本精品一二区| 国产精品日韩一区二区三区| 特高潮videossexhd| 久久一区二区精品视频| 99日本精品| 正在播放国产一区二区| 国产精品自产拍在线观看蜜| 一级午夜电影| 91夜夜夜| 日本一区二区电影在线观看| 日本一区二区在线观看视频| 亚洲精品乱码久久久久久高潮| 国产精品一区二区日韩新区| 91超薄丝袜肉丝一区二区| 国产人澡人澡澡澡人碰视| 久久精品综合| 国产v亚洲v日韩v欧美v片| 91久久香蕉| 国产精品久久久久99| 午夜精品影视| 久久精品com| 激情久久一区| 日韩精品久久久久久久的张开腿让| 国产69精品久久久久777糖心| 久久久久一区二区三区四区| 国产一区二区免费在线| 日韩一区二区精品| 亚洲欧美国产精品久久| 国产精品中文字幕一区二区三区 | 狠狠色噜噜狠狠狠888奇米| 亚洲欧美日韩在线| 国产69精品久久久| 在线精品国产一区二区三区88| 99精品一区二区| 国产黄一区二区毛片免下载| 粉嫩久久99精品久久久久久夜| 国产精品1234区| 国产欧美一区二区精品性| 午夜一区二区三区在线观看| 亚洲精品国产精品国自| 99国产精品九九视频免费看| 亚洲精品欧美精品日韩精品| 玖玖精品国产| 国产精品二区一区| 中文字幕精品一区二区三区在线| 2023国产精品自产拍在线观看| 国产一级一片免费播放| 精品国产免费久久| 久久久久久中文字幕| 狠狠色噜噜狠狠狠狠色综合久老司机| 国产精华一区二区精华| 国产精品高潮在线| 国产偷自视频区视频一区二区| 日日夜夜亚洲精品| 国产精品一区二区不卡| 国产一区日韩精品| 国产精品一区久久人人爽| 狠狠色噜噜狠狠狠狠色吗综合| 国产欧美一区二区三区不卡高清 | www色视频岛国| 免费久久一级欧美特大黄| 精品免费久久久久久久苍| 国产精品自拍在线| 久久综合伊人77777麻豆最新章节一区二区久久精品66国产精品 | 午夜爽爽视频| 国产99久久九九精品| 中文字幕另类日韩欧美亚洲嫩草| freexxxx性| 午夜激情电影在线播放| 国产日韩麻豆| 狠狠色噜噜狠狠狠狠米奇7777| 亚洲网站久久| 欧美一区二区三区久久久精品| www亚洲精品| 国产一区二区伦理| 91麻豆精品国产91久久久更新资源速度超快| 国产一区二区三区小说| 国产一区二区精品免费| www.成| 国产精品久久久久久久久久久久冷| 亚洲欧美日韩一级| 欧美精品在线视频观看| 亚洲欧洲精品一区二区三区不卡| 午夜欧美a级理论片915影院|