[發(fā)明專(zhuān)利]文檔處理方法、裝置、存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202110583801.5 | 申請(qǐng)日: | 2021-05-27 |
| 公開(kāi)(公告)號(hào): | CN113204951A | 公開(kāi)(公告)日: | 2021-08-03 |
| 發(fā)明(設(shè)計(jì))人: | 廖林濤;朱增 | 申請(qǐng)(專(zhuān)利權(quán))人: | 廣州文石信息科技有限公司 |
| 主分類(lèi)號(hào): | G06F40/189 | 分類(lèi)號(hào): | G06F40/189;G06F40/109;G06F40/191 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 陳嘉雯 |
| 地址: | 510000 廣東省廣*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文檔 處理 方法 裝置 存儲(chǔ) 介質(zhì) 計(jì)算機(jī) 設(shè)備 | ||
1.一種文檔處理方法,其特征在于,所述方法包括:
掃描待處理文檔中的每行文本;
基于每行文本包含的字節(jié)長(zhǎng)度及預(yù)設(shè)標(biāo)題規(guī)則,篩選作為標(biāo)題的文本行,并確定各標(biāo)題在所述待處理文檔中的位置;
基于各標(biāo)題在所述待處理文檔中的位置,確定每一標(biāo)題對(duì)應(yīng)章節(jié)的起止位置;
根據(jù)所述標(biāo)題及與所述標(biāo)題對(duì)應(yīng)章節(jié)的起止位置,建立與所述待處理文檔對(duì)應(yīng)的目錄和章節(jié)列表。
2.根據(jù)權(quán)利要求1所述的文檔處理方法,其特征在于,還包括:
當(dāng)用戶(hù)打開(kāi)所述待處理文檔時(shí),根據(jù)所述用戶(hù)停留在所述待處理文檔中的當(dāng)前字節(jié)位置,調(diào)用所述章節(jié)列表確定待讀取的字節(jié)范圍;
讀取所述字節(jié)范圍內(nèi)的字節(jié)流。
3.根據(jù)權(quán)利要求1所述的文檔處理方法,其特征在于,所述掃描待處理文檔中的每行文本的步驟,包括:
檢測(cè)待處理文檔的文檔編碼;
依據(jù)所述文檔編碼掃描所述待處理文檔中的每行文本。
4.根據(jù)權(quán)利要求3所述的文檔處理方法,其特征在于,所述依據(jù)所述文檔編碼掃描所述待處理文檔中的每行文本的步驟,包括:
基于所述文檔編碼確定所述待處理文檔的每行末尾字節(jié)位置;
根據(jù)每行末尾字節(jié)位置確定所述待處理文檔中的每行文本。
5.根據(jù)權(quán)利要求1所述的文檔處理方法,其特征在于,所述基于每行文本包含的字節(jié)長(zhǎng)度及預(yù)設(shè)標(biāo)題規(guī)則,篩選作為標(biāo)題的文本行的步驟,包括:
確定每行文本所對(duì)應(yīng)的字節(jié)長(zhǎng)度;
篩選字節(jié)長(zhǎng)度不大于預(yù)設(shè)標(biāo)題長(zhǎng)度閾值的文本行進(jìn)行解碼;
根據(jù)預(yù)設(shè)標(biāo)題規(guī)則判斷解碼后得到的各行字符串是否為標(biāo)題;
若是,則將所述字符串對(duì)應(yīng)的文本行作為標(biāo)題。
6.根據(jù)權(quán)利要求5所述的文檔處理方法,其特征在于,所述根據(jù)預(yù)設(shè)標(biāo)題規(guī)則判斷解碼后得到的各行字符串是否為標(biāo)題的步驟之后,還包括:
若其中一行字符串不是標(biāo)題,則依據(jù)預(yù)設(shè)章節(jié)長(zhǎng)度閾值,將所述字符串的相鄰兩側(cè)作為標(biāo)題的字符串進(jìn)行劃分;
確定劃分后的各章節(jié)的起止位置。
7.根據(jù)權(quán)利要求1所述的文檔處理方法,其特征在于,所述基于各標(biāo)題在所述待處理文檔中的位置,確定每一標(biāo)題對(duì)應(yīng)章節(jié)的起止位置的步驟,包括:
對(duì)于一目標(biāo)標(biāo)題:
將所述目標(biāo)標(biāo)題的開(kāi)頭字符在所述待處理文檔中的字節(jié)位置,作為所述目標(biāo)標(biāo)題對(duì)應(yīng)章節(jié)的起始位置;
將與所述目標(biāo)標(biāo)題相鄰的下一標(biāo)題的開(kāi)頭字符,在所述待處理文檔中的字節(jié)位置,作為所述目標(biāo)標(biāo)題對(duì)應(yīng)章節(jié)的截止位置。
8.一種文檔處理裝置,其特征在于,包括:
數(shù)據(jù)掃描模塊,用于掃描待處理文檔中的每行文本;
標(biāo)題確認(rèn)模塊,用于基于每行文本包含的字節(jié)長(zhǎng)度及預(yù)設(shè)標(biāo)題規(guī)則,篩選作為標(biāo)題的文本行,并確定各標(biāo)題在所述待處理文檔中的位置;
章節(jié)確認(rèn)模塊,用于基于各標(biāo)題在所述待處理文檔中的位置,確定每一標(biāo)題對(duì)應(yīng)章節(jié)的起止位置;
文檔建立模塊,用于根據(jù)所述標(biāo)題及與所述標(biāo)題對(duì)應(yīng)章節(jié)的起止位置,建立與所述待處理文檔對(duì)應(yīng)的目錄和章節(jié)列表。
9.一種存儲(chǔ)介質(zhì),其特征在于:所述存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被一個(gè)或多個(gè)處理器執(zhí)行時(shí),使得一個(gè)或多個(gè)處理器執(zhí)行如權(quán)利要求1至7中任一項(xiàng)所述文檔處理方法的步驟。
10.一種計(jì)算機(jī)設(shè)備,其特征在于:所述計(jì)算機(jī)設(shè)備中存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被一個(gè)或多個(gè)處理器執(zhí)行時(shí),使得一個(gè)或多個(gè)處理器執(zhí)行如權(quán)利要求1至7中任一項(xiàng)所述文檔處理方法的步驟。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于廣州文石信息科技有限公司,未經(jīng)廣州文石信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110583801.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類(lèi)型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫(huà)生成方法、裝置及設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線(xiàn)程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 光源裝置、照明裝置、液晶裝置和電子裝置
- 預(yù)測(cè)裝置、編輯裝置、逆預(yù)測(cè)裝置、解碼裝置及運(yùn)算裝置
- 圖像形成裝置、定影裝置、遮光裝置以及保持裝置
- 打印裝置、讀取裝置、復(fù)合裝置以及打印裝置、讀取裝置、復(fù)合裝置的控制方法
- 電子裝置、光盤(pán)裝置、顯示裝置和攝像裝置
- 光源裝置、照明裝置、曝光裝置和裝置制造方法
- 用戶(hù)裝置、裝置對(duì)裝置用戶(hù)裝置、后端裝置及其定位方法
- 遙控裝置、通信裝置、可變裝置及照明裝置
- 透鏡裝置、攝像裝置、處理裝置和相機(jī)裝置
- 抖動(dòng)校正裝置、驅(qū)動(dòng)裝置、成像裝置、和電子裝置





