日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于文本行的文檔分段方法及裝置有效

專利信息
申請號: 201710616443.7 申請日: 2017-07-26
公開(公告)號: CN107391457B 公開(公告)日: 2020-10-27
發明(設計)人: 林康;羅鷹;張鑫陽 申請(專利權)人: 成都科來軟件有限公司
主分類號: G06F40/10 分類號: G06F40/10;G06F40/12
代理公司: 成都九鼎天元知識產權代理有限公司 51214 代理人: 徐靜
地址: 610041 四川省成都市高新區*** 國省代碼: 四川;51
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 文本 文檔 分段 方法 裝置
【權利要求書】:

1.一種基于文本行的文檔分段方法,其特征在于包括:

步驟1:對于由文本行構成的文檔格式進行數據解析,提取出頁面和文檔數據結構,每一文本行對應的文檔數據結構中提取該文本行信息;遍歷全文的每個包含文本行的文檔數據結構,根據這些文檔數據結構的文本行信息構成的文本行信息列表,分別計算出全文上下文和頁面上下文信息;

步驟2:依據每個頁面中的n個文本行信息列表,結合全文上下文和頁面上下文信息,對每個頁面,按照分段算法將其中的文本行單元進行分段;所述步驟2具體包括:

步驟21:跳過無內容的文本行單元;

步驟22:為每個文本行單元設置一個初值為0的段合并分數,流程結束時,若段合并分數大于0,則將該文本行單元與其前一個文本行單元進行合并;

步驟23:設置一個段合并緩存,在確定整個段落合并結束之前,將已確定要合并的文本行單元暫存在這個緩存中,并且將文本行的字體格式存入集合中;

步驟24:檢測到新的文本行的段合并分數小于等于0時,結束當前段落合并,清除段合并緩存,開始新的段落分段;所述段合并分數計算過程是:

步驟31:若當前行的字體格式存在于段合并緩存的字體格式集合之中,則段合并分數增加5;

步驟32:通過當前行距離頁面頂端的距離curr_line.gap_top判斷相鄰兩文本單元是否在同一行,若-1≤curr_line.gap_topmin(gap_top_avg-gap_top_std,8)

則相鄰兩文本單元在同一行,curr_line.merge_score+=10,執行步驟32;否則,相鄰兩文本單元不在同一行,執行步驟33;

步驟33:檢測文本間行距,若|curr_line.gap_top-prev_line.gap_top|gap_top_std,則文本行單元行距過大,則說明兩行很可能不屬于同一段落,curr_line.merge_score-=10,執行步驟34以及步驟35;否則,curr_line.merge_score值不變,執行步驟34;

步驟34:從merge_buffer中遍歷上一行,找到最前端的文本行單元prev_line_start;判斷兩行的左縮進是否一致,若:

-5≤prev_line_start.gap_left-curr_line.gap_leftgap_left_avg-gap_left_std

則縮進一致,curr_line.merge_score+=1,否則curr_line.merge_score-=1;

步驟35:字數檢查,依據是同一段落的文本中,下一行的字數不會明顯多于前一行,即若curr_line.line_len-prev_line.line_len2*len_std,則curr_line.merge_score-=5;否則curr_line.merge_score數值不變;

其中,gap_top_avg表示相鄰文本行之間的行距的平均值;gap_top_std表示相鄰文本行之間的行距的標準差;curr_line.merge_score指的是當前文本行單元的段合并分數;prev_line.gap_top指的是前一文本行單元與相鄰文本行單元之間的行距;merge_buffer指的是段合并緩存;prev_line_start.gap_left指的是前一文本行單元與相鄰文本行之間的縮進差;curr_line.gap_left指的是當前文本行單元與相鄰文本行之間的縮進差;gap_left_avg指的是相鄰文本行之間的縮進差的平均值;gap_left_std指的是相鄰文本行之間的縮進差的標準差;curr_line.line_len指的是當前文本行單元字數;len_std指的是文本行的字數的標準差;prev_line.line_len指的是前一文本行單元字數。

2.一種基于文本行的文檔分段裝置,其特征在于包括:

文本行信息獲取模塊:提取出頁面和文檔數據結構,從每一文本行對應的文檔數據結構中提取該文本行信息;遍歷全文的每個包含文本行的文檔數據結構,根據這些文檔數據結構的文本行信息構成的文本行信息列表,分別計算出全文上下文和頁面上下文信息;

分段合并模塊:依據文本行信息獲取模塊取得的每個頁面中的n個文本行信息列表,結合上下文信息,對每個頁面,按照分段算法將其中的文本行單元進行分段;

所述分段合并模塊具體包括:

無內容單元處理模塊:跳過無內容的文本行單元;

文本行單元合并模塊:首先設置一個段合并緩存,在確定整個段落合并結束之前,將已確定要合并的文本行單元暫存在這個緩存中,并且將文本行的字體格式存入集合中;然后為每個文本行單元設置一個初值為0的段合并分數,流程結束時,若新文本行的段合并分數大于0,則將該文本行單元與其前一個文本行單元進行合并,并將該文本行單元放入段合并緩存中;若檢測到新的文本行的段合并分數小于等于0時,結束當前段落合并,清除段合并緩存,開始新的段落分段;

所述段合并分數計算過程是:

字體格式判斷模塊:若curr_line.line_font存在于集合font_set之中,則curr_line.merge_score+=5;

同行文本行單元判斷模塊:通過curr_line.gap_top判斷相鄰兩文本單元是否在同一行,若-1≤curr_line.gap_topmin(gap_top_avg-gap_top_std,8),

則相鄰兩文本單元在同一行,curr_line.merge_score+=10,執行同行文本行單元判斷模塊;否則,相鄰兩文本單元不在同一行,執行同段落文本行單元判斷模塊;其中curr_line.gap_top指的是當前文本行單元與相鄰文本行單元之間的行距;

同段落文本行單元判斷模塊:檢測文本間行距,若|curr_line.gap_top-prev_line.gap_top|gap_top_std,則文本行單元行距過大,則說明兩行很可能不屬于同一段落,curr_line.merge_score-=10,執行文本行單元縮進判斷模塊以及字體檢查模塊;否則,curr_line.merge_score值不變,執行文本行單元縮進判斷模塊;

文本行單元縮進判斷模塊:從merge_buffer中遍歷上一行,找到最前端的文本塊prev_line_start;判斷兩文本單元的左縮進是否一致,若:

-5≤prev_line_start.gap_left-curr_line.gap_leftgap_left_avg-gap_left_std

則縮進一致,curr_line.merge_score+=1,否則curr_line.merge_score-=1;

字體檢查模塊:字數檢查,依據是同一段落的文本中,下一行的字數不會明顯多于前一行,即若curr_line.line_len-prev_line.line_len2*len_std,則curr_line.merge_score-=5;否則curr_line.merge_score數值不變;prev_line.line_len指的是前一文本行單元字數;

其中,gap_top_avg表示相鄰文本行之間的行距的平均值;gap_top_std表示相鄰文本行之間的行距的標準差;curr_line.merge_score指的是當前文本行單元的段合并分數;prev_line.gap_top指的是前一文本行單元與相鄰文本行單元之間的行距;merge_buffer指的是段合并緩存;prev_line_start.gap_left指的是前一文本行單元與相鄰文本行之間的縮進差;curr_line.gap_left指的是當前文本行單元與相鄰文本行之間的縮進差;gap_left_avg指的是相鄰文本行之間的縮進差的平均值;gap_left_std指的是相鄰文本行之間的縮進差的標準差;curr_line.line_len指的是當前文本行單元字數;len_std指的是文本行的字數的標準差;curr_line.line_font指的是當前文本行單元的字體格式;font_set表示集合。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都科來軟件有限公司,未經成都科來軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201710616443.7/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产在线干| 国产精品麻豆一区二区三区| 亚洲国产精品综合| 亚洲国产精品国自产拍av| aaaaa国产欧美一区二区| 97精品久久久午夜一区二区三区| 国产精品中文字幕一区| 夜夜躁日日躁狠狠躁| 中文字幕一区2区3区| 蜜臀久久99精品久久久| 欧美日韩一级二级三级| 一区二区三区精品国产| 国产精品一区二区在线观看免费 | 国产一区二区播放| 久久精品视频偷拍| 国内精品99| 亚洲w码欧洲s码免费| 日韩精品中文字幕久久臀| 国产精品一区二区人人爽| 午夜三级大片| 久久精品国产96| 欧美在线一级va免费观看| 日本一区午夜艳熟免费| 欧洲在线一区| 国产aⅴ一区二区| 久久人做人爽一区二区三区小说 | 久久国产精品99国产精| 狠狠色噜噜狼狼狼色综合久| 中文在线一区二区三区| 91精品一区| 欧美3p激情一区二区三区猛视频 | 国产日韩欧美自拍| 国产91一区| 99久久国产综合精品麻豆| 高清人人天天夜夜曰狠狠狠狠| 久久精品麻豆| 国产精品一区二区av麻豆| 狠狠色狠狠色综合日日五| 久久一区二区三区欧美| 久久国产欧美日韩精品| 国产亚洲久久| 日韩午夜三级| 一区二区在线精品| 一级午夜电影| 日韩精品久久久久久久的张开腿让| 国产午夜亚洲精品羞羞网站| 国产精品剧情一区二区三区| 欧美日韩亚洲三区| 浪潮av色| 日韩精品中文字幕一区二区| 亚洲**毛茸茸| 国产精品亚洲精品| 国产精品一区二区av麻豆| 欧美日本三级少妇三级久久| 国产精品一级在线| 国产乱一乱二乱三| 亚洲欧美另类综合| 日韩欧美视频一区二区| 午夜片在线| 午夜影院一级片| 午夜精品在线播放| 日韩欧美亚洲视频| 国产精品九九九九九| 亚洲精品老司机| 国产一区在线视频播放| 国产人成看黄久久久久久久久| 国语对白老女人一级hd| 午夜免费片| 国产一区观看| 精品国产一区二区三区忘忧草| 午夜剧场a级免费| 亚洲国产另类久久久精品性| 国产一区二区三区乱码| 国产精品偷伦一区二区| 国产午夜亚洲精品| 偷拍精品一区二区三区| 色综合久久精品| 国产精品高清一区| 夜夜夜夜夜猛噜噜噜噜噜gg| 久久福利视频网| 69久久夜色精品国产7777| 高清在线一区二区| 国内少妇自拍视频一区| 国内自拍偷拍一区| 久久久综合香蕉尹人综合网| 免费在线观看国产精品| 亚洲精品性| 99国产精品永久免费视频| 国产剧情在线观看一区二区| 国产91麻豆视频| 狠狠色狠狠色很很综合很久久| 一区二区久久精品66国产精品| 狠狠干一区| 97久久精品一区二区三区观看| 欧洲亚洲国产一区二区三区| 国产原创一区二区 | 91精品国模一区二区三区| 99久久精品国产国产毛片小说 | 香港三日三级少妇三级99| 午夜电影一区| 国产精品久久久久久久久久软件| 激情久久一区| 中文字幕制服狠久久日韩二区| 国产一级二级在线| 久久精品国产精品亚洲红杏| 国产一区二区三区的电影| 欧美777精品久久久久网| 亚洲精品久久久久www| 国产精品视频1区2区3区| 欧美一区二区综合| 欧美久久精品一级c片| 国产精品入口麻豆九色| 一区二区三区国产精品视频| xxxx18日本护士高清hd| 国产精品一品二区三区四区五区| 91精品久久久久久久久久| 国产免费区| 久久综合国产伦精品免费| 国产精品自产拍在线观看蜜| 午夜黄色一级电影| 国产乱码精品一区二区三区介绍 | 搡少妇在线视频中文字幕| 日韩亚洲欧美一区| 国产一二区在线| 狠狠色成色综合网| 日韩区欧美久久久无人区| 久久久久国产一区二区三区不卡| 一区二区三区国产精华| 三级午夜片| 97国产精品久久久| 亚洲国产欧美一区二区丝袜黑人| 国产麻豆一区二区三区精品| 午夜诱惑影院| 欧美色综合天天久久综合精品| 精品久久二区| 国产一区二区三区国产| 国产精品无码永久免费888| 97久久精品人人做人人爽| 人人要人人澡人人爽人人dvd| 欧美国产三区| 91麻豆精品一区二区三区| 99久久国产综合精品尤物酒店| 国产韩国精品一区二区三区| 91高清一区| 久久亚洲精品国产日韩高潮| 91久久国语露脸精品国产高跟 | 国产日韩欧美专区| 99精品国产一区二区三区不卡| 国产精品综合久久| 日韩av在线电影网| 欧美精品一区二区三区视频| 国产玖玖爱精品视频| 欧美在线视频一二三区| 国产精品视频二区三区| 欧美精品日韩| 午夜一级免费电影| 午夜影院你懂的| 88888888国产一区二区| 日本午夜精品一区二区三区| 亚洲国产精品一区二区久久hs| 欧美日韩三区二区| 国产精品午夜一区二区| 国产欧美一区二区三区不卡高清| 自拍偷在线精品自拍偷无码专区 | 午夜诱惑影院| 国产一区二区午夜| 91看片免费| 久久免费精品国产| 自拍偷在线精品自拍偷写真图片| ass韩国白嫩pics| 国产亚洲精品久久久久久网站| 神马久久av| 激情久久一区二区| 亚洲天堂国产精品| 国产91丝袜在线| 欧美激情在线观看一区| 综合色婷婷一区二区亚洲欧美国产 | 久久噜噜少妇网站| 99精品少妇| 国产精品刺激对白麻豆99| 日本中文字幕一区| 91精品中综合久久久婷婷| 欧美日韩国产色综合一二三四| 日韩午夜一区| 精品久久久久久久免费看女人毛片| 欧美片一区二区| 国产精品欧美一区乱破| 国产乱人乱精一区二视频国产精品| 亚洲免费精品一区二区| 亚洲少妇一区二区| 国产一级片一区| 国产精品麻豆99久久久久久| 欧美一区二区三区四区夜夜大片| 欧美精品国产一区| 亚洲自拍偷拍一区二区三区| 国产无遮挡又黄又爽又色视频 | 国产视频一区二区在线| 日本一区二区三区在线看| 在线观看v国产乱人精品一区二区| 国产97久久| 99久久国产综合精品尤物酒店| 一区二区欧美精品| 麻豆天堂网| 欧美日韩国产色综合视频| 麻豆精品久久久| 91人人精品| 久久99亚洲精品久久99| 欧美日韩精品在线播放| 久久国产欧美一区二区三区免费| 99re久久精品国产| 精品国产伦一区二区三区| 亚洲精品久久久中文| 国产一区在线视频播放| 午夜电影理伦片2023在线观看| 日本二区在线播放| 国产欧美一区二区三区在线| 少妇又紧又色又爽又刺激视频网站| 国产精品久久免费视频在线| 在线精品一区二区| 91理论片午午伦夜理片久久| 久久精品综合视频| 久久久精品免费看| 香港三日本8a三级少妇三级99 | 久久99精品国产99久久6男男| 亚洲精品性| 欧美国产一区二区三区激情无套| 日韩av免费电影| 国产精品自产拍在线观看桃花| 欧美综合国产精品久久丁香| 国产日韩一区二区三区| 国产精品美女一区二区视频| 国产在线精品一区二区在线播放| 国产精品偷乱一区二区三区| 毛片大全免费观看| 国产精品久久人人做人人爽| 国产韩国精品一区二区三区| 国产特级淫片免费看| 久久国产精品二区| 97人人澡人人添人人爽超碰| 日本精品一区二区三区视频| 97久久国产精品| 欧洲另类类一二三四区| 亚洲精品一区中文字幕| 日本大码bbw肉感高潮| 国产亚洲精品综合一区| 欧美日韩国产一区在线|