[發(fā)明專利]多格式文擋錄入并比對的方法在審
| 申請?zhí)枺?/td> | 201810549599.2 | 申請日: | 2013-12-18 |
| 公開(公告)號: | CN108984593A | 公開(公告)日: | 2018-12-11 |
| 發(fā)明(設(shè)計(jì))人: | 鞠非;華凱;顧梅;吳國奇;湯丹 | 申請(專利權(quán))人: | 國網(wǎng)江蘇省電力有限公司常州供電分公司;國網(wǎng)江蘇省電力有限公司;國家電網(wǎng)公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06K9/00;G06K9/62 |
| 代理公司: | 常州市江海陽光知識產(chǎn)權(quán)代理有限公司 32214 | 代理人: | 陸文俊 |
| 地址: | 213003*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文檔 錄入 比對 原始格式 文檔庫 紙質(zhì)文檔 多格式 文擋 電子文檔 分詞系統(tǒng) 關(guān)鍵屬性 基礎(chǔ)管理 前端設(shè)備 統(tǒng)一格式 文檔管理 文檔轉(zhuǎn)換 相似程度 紙制文件 智能管理 自動掃描 算法 標(biāo)注 數(shù)據(jù)庫 關(guān)聯(lián) 分類 統(tǒng)一 | ||
本發(fā)明涉及一種多格式文擋錄入并比對的方法,首先判斷待錄入文檔是否為紙質(zhì)文檔,如果是紙質(zhì)文檔則通過前端設(shè)備將紙制文件自動掃描錄入原始格式文檔庫中,如果是電子文檔則直接錄入原始格式文檔庫中,再將原始格式文檔庫中的所有文檔轉(zhuǎn)換為統(tǒng)一格式的文檔,然后對文檔進(jìn)行關(guān)鍵屬性標(biāo)注和基礎(chǔ)管理,最后通過Nakastu算法和分詞系統(tǒng)進(jìn)行基于內(nèi)容的文檔比對,并將根據(jù)比對相似程度進(jìn)行文檔關(guān)聯(lián)且錄入數(shù)據(jù)庫中。本發(fā)明能將各類型和格式的文檔自動錄入、統(tǒng)一分類、智能管理和與已有文件的比對,提高文檔利用效率,節(jié)省文檔比對時(shí)間,提升文檔管理效率。
技術(shù)領(lǐng)域
本發(fā)明涉及文檔處理管理領(lǐng)域,更具體的涉及一種將電子文檔或紙質(zhì)文檔錄入并進(jìn)行比對的方法。
背景技術(shù)
目前典型的文檔比對技術(shù)應(yīng)用有:(1)信息智能檢索:搜索引擎對用戶輸入關(guān)鍵字的反應(yīng)是列出所有與該關(guān)鍵字相匹配的信息。(2)自動問答系統(tǒng):在這種系統(tǒng)中,問題是多種多樣,且非常巨大的,有些問題是非常相似的,如果用人工來回答,將耗費(fèi)大量的時(shí)間和人力,如果在這種系統(tǒng)中應(yīng)用文本相似度技術(shù),將相似度很高的問題歸為一類,使系統(tǒng)對這類問題自動做出答復(fù),將節(jié)省大量的時(shí)間。(3)文本查重:在某些領(lǐng)域,考慮到隱私性和獨(dú)創(chuàng)性,要求文本不能重復(fù)出現(xiàn),那么應(yīng)用文本相似度技術(shù),對這類文本進(jìn)行相似度的計(jì)算,就可以看出哪些文本多次出現(xiàn)。由上述,文檔比對技術(shù)越來越多地應(yīng)用在各個(gè)領(lǐng)域。
目前,對文檔的比對分析管理研究主要集中在文本相似度計(jì)算,對于文本相似度計(jì)算側(cè)重在字符串相似度,已經(jīng)形成比較成熟的聚類算法,但是這些算法在比較的過程中沒有考慮文本或者字符的語義,計(jì)算出來的相似度參考度不高,在實(shí)際應(yīng)用過程中給用戶提供參考價(jià)值不高。雖然通過分詞來計(jì)算文本相似度,即通過中文分詞算法按照語義角度進(jìn)行分詞,然后根據(jù)分詞和比對算法結(jié)合計(jì)算文本之間的相似度,其重點(diǎn)是從詞語級來比對文檔之間相似度。但這些文檔比對支持的文檔都是單一的TXT文本或者Word文件,對于多格式文檔的比對無法直接進(jìn)行,需要事先由人工進(jìn)行格式轉(zhuǎn)換后才能比較,大大影響工作效率。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種可以對多種格式的文檔錄入并進(jìn)行比對的方法。
實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案是提供一種多格式文擋錄入并比對的方法,包括如下步驟:
①判斷需要錄入的文檔是否為紙制文檔,如果為紙制文檔則將需要錄入的紙制文檔按照先后次序疊放整齊后放置到掃描設(shè)備上,通過掃描設(shè)備將文檔掃描成PDF格式的電子文檔并存儲到與掃描設(shè)備電連接的計(jì)算機(jī)的存儲設(shè)備的原始格式文檔庫中;
如果是包括PDF、Word或TXT在內(nèi)的多種格式的電子文檔,則直接存儲到計(jì)算機(jī)的存儲設(shè)備的原始格式文檔庫中;
②通過計(jì)算機(jī)對原始格式文檔庫中的各個(gè)電子文檔轉(zhuǎn)換成統(tǒng)一格式的文檔并存儲到計(jì)算機(jī)的存儲設(shè)備的統(tǒng)一格式文檔庫中,可以根據(jù)需要自行設(shè)定轉(zhuǎn)換后的文件格式,優(yōu)選的文件格式為Word格式或TXT文本形式,如果原始的電子文檔的文件格式與設(shè)定轉(zhuǎn)換后的文件格式一致則直接從原始格式文檔庫拷貝至統(tǒng)一格式文檔庫;
③對轉(zhuǎn)換后統(tǒng)一格式成Word格式或TXT文本形式的各個(gè)電子文檔的內(nèi)容,通過分詞系統(tǒng)將各個(gè)文檔的內(nèi)容提取為句子集合,并以與各個(gè)文檔相對應(yīng)的條目的形式存儲到句子數(shù)據(jù)表中;
④對轉(zhuǎn)換后統(tǒng)一格式成Word格式或TXT文本形式的各個(gè)電子文檔進(jìn)行包括類別、標(biāo)題、來源、關(guān)鍵詞、創(chuàng)建時(shí)間在內(nèi)的關(guān)鍵屬性的標(biāo)注,并以與各個(gè)文檔相對應(yīng)的條目的形式存儲到句子數(shù)據(jù)表中;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國網(wǎng)江蘇省電力有限公司常州供電分公司;國網(wǎng)江蘇省電力有限公司;國家電網(wǎng)公司,未經(jīng)國網(wǎng)江蘇省電力有限公司常州供電分公司;國網(wǎng)江蘇省電力有限公司;國家電網(wǎng)公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810549599.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 藍(lán)牙信息錄入設(shè)備、錄入系統(tǒng)及錄入方法
- 一種原筆跡手寫錄入方法和系統(tǒng)
- 藍(lán)牙信息錄入設(shè)備、錄入系統(tǒng)及錄入方法
- 數(shù)據(jù)錄入系統(tǒng)、數(shù)據(jù)錄入方法以及數(shù)據(jù)錄入裝置
- 錄入方法及錄入系統(tǒng)
- 智慧校園系統(tǒng)的信息錄入方法、裝置和計(jì)算機(jī)可讀存儲介質(zhì)
- 指紋底庫錄入方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種肺癌患者隨訪系統(tǒng)
- 一種爆破施工填報(bào)系統(tǒng)及方法
- 數(shù)據(jù)錄入方法及裝置、設(shè)備、計(jì)算機(jī)可讀存儲介質(zhì)
- 圖像處理系統(tǒng)、計(jì)算機(jī)程序產(chǎn)品和圖像處理方法
- 碼流轉(zhuǎn)換系統(tǒng)及方法、碼流識別單元和方案確定單元
- 編解碼系統(tǒng)和方法
- 一種數(shù)據(jù)處理方法和裝置
- 格式類別學(xué)習(xí)系統(tǒng)以及圖像處理裝置
- 圖像處理方法、裝置、圖像處理器及電子設(shè)備
- 一種信息提取方法、裝置、設(shè)備及存儲介質(zhì)
- 一種SKL系統(tǒng)文件格式轉(zhuǎn)換方法和系統(tǒng)
- 網(wǎng)頁生成方法、裝置、電子設(shè)備及存儲介質(zhì)
- 文檔轉(zhuǎn)換方法、裝置、電子設(shè)備及存儲介質(zhì)





