[發明專利]多格式文擋錄入并比對的方法在審
| 申請號: | 201810549599.2 | 申請日: | 2013-12-18 |
| 公開(公告)號: | CN108984593A | 公開(公告)日: | 2018-12-11 |
| 發明(設計)人: | 鞠非;華凱;顧梅;吳國奇;湯丹 | 申請(專利權)人: | 國網江蘇省電力有限公司常州供電分公司;國網江蘇省電力有限公司;國家電網公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06K9/00;G06K9/62 |
| 代理公司: | 常州市江海陽光知識產權代理有限公司 32214 | 代理人: | 陸文俊 |
| 地址: | 213003*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 錄入 比對 原始格式 文檔庫 紙質文檔 多格式 文擋 電子文檔 分詞系統 關鍵屬性 基礎管理 前端設備 統一格式 文檔管理 文檔轉換 相似程度 紙制文件 智能管理 自動掃描 算法 標注 數據庫 關聯 分類 統一 | ||
1.一種多格式文擋錄入并比對的方法,包括如下步驟:
①判斷需要錄入的文檔是否為紙制文檔,如果為紙制文檔則將需要錄入的紙制文檔按照先后次序疊放整齊后放置到掃描設備上,通過掃描設備將文檔掃描成PDF格式的電子文檔并存儲到與掃描設備電連接的計算機的存儲設備的原始格式文檔庫中;
如果是包括PDF、Word或TXT在內的多種格式的電子文檔,則直接存儲到計算機的存儲設備的原始格式文檔庫中;
②通過計算機對原始格式文檔庫中的各個電子文檔轉換成統一格式的文檔并存儲到計算機的存儲設備的統一格式文檔庫中,可以根據需要自行設定轉換后的文件格式,優選的文件格式為Word格式或TXT文本形式,如果原始的電子文檔的文件格式與設定轉換后的文件格式一致則直接從原始格式文檔庫拷貝至統一格式文檔庫;
③對轉換后統一格式成Word格式或TXT文本形式的各個電子文檔的內容,通過分詞系統將各個文檔的內容提取為句子集合,并以與各個文檔相對應的條目的形式存儲到句子數據表中;通過分詞系統將各個文檔的內容提取為句子集合的具體過程是,將每個文檔進行分解形成文檔分解樹,每個文檔所對應的文檔分解樹包括n(n≥1)個句子,句子以矩陣形式存放,每個句子由行號、列號、長度、內容、相似度信息構成,則第n個句子的矩陣由行號n、列號n、長度n、內容n、相似度n構成;
④對轉換后統一格式成Word格式或TXT文本形式的各個電子文檔進行包括類別、標題、來源、關鍵詞、創建時間在內的關鍵屬性的標注,并以與各個文檔相對應的條目的形式存儲到句子數據表中;
⑤選擇最新錄入統一格式文檔庫的一個文檔或者統一格式文檔庫內某個文檔作為待比對文檔與統一格式文檔庫的其他所有文檔進行比對,首先通過句子數據表根據文檔的包括類別、標題、來源、關鍵詞、創建時間在內的關鍵屬性進行比對和匹配,從而從統一格式文檔庫中篩選出包括類別、標題、來源、關鍵詞、創建時間在內的關鍵屬性中的任一個屬性與待比對文檔的類別、標題、來源、關鍵詞、創建時間5個關鍵屬性的任一個屬性匹配的所有文檔;
⑥對由步驟⑤篩選出來的文檔作為參考文檔逐個與待比對文檔通過句子數據表中由步驟③得到的與各個文檔相對應的條目信息進行比對,2個文檔比對時以句子為單位,根據Nakatsu算法逐項比對句子從而計算句子之間的相似度,再根據各個句子的相似度利用算術平均法計算2個文檔整體的相似度:設待比對的兩個句子是句子A和句子B,首先計算句子A和句子B的最長公共子序列,記作為名MaxLen(A,B),具體為設M=Len(A),N=Len(B),即M為字符串A的長度,N為字符串B的長度,為了不失一般性,假設M≤N;
設A=a1a2……aM,表示A是由a1a2……aM這M個字符組成;
B=b1b2……bN,表示B是由b1b2……bN這N個字符組成;
則MaxLen(i,j)= MaxLen (a1a2……ai,b1b2……bj),其中1≤i≤M,1≤j≤N;
用L(k,i)表示所有與字符串a1a2……ai有長度為k的LCS(Longest CommonSubsequence,最長公共子序列)字符串b1b2……bj中j的最小值,用公式表示就是:L(k,i)=Min{j} Where LCS(i,j)=k;
第一步,初始化數組LL()和P();
LL(0)=0
LL(i)=V 1≤i≤M
P(i)=V 1≤i≤M
此時,LL(0)表示L(0,0);LL(1)表示L(1,0);LL(2)表示L(2,1);……
第二步,依次計算第一條對角線上的元素,用臨時變量T計算L(1,1);T=F(L(0,0),L(1,0))=F(LL(0),LL(1));
F表示取最小值運算,將T的值賦給LL(1);
此時LL(1)表示LL(1,1),LL(2)表示L(2,1);重復上面的計算,直到計算完本條對角線,如果是第k行的第一個不為V的值,將該值賦給P(k);
第一條對角線計算完之后,此時,LL(0)表示L(0,1);LL(1)表示L(1,1);LL(2)表示L(2,2);……;
如果,這條對角線不是解,重復第二步,計算下一條對角線,直到遇到解為止;
不過要注意的是:第i條對角線只有m-i+1個元素,所以只計算到LL(m-i+1);
如果某條對角線的某個元素是V的話,則這條對角線之后的元素都是V,就不需要計算了;
然后計算句子A和句子B之間編輯距離,用LD(A,B)表示,很顯然,若LD(A,B)=0則表示句子A和句子B完全相同;
A=a1a2……aN,表示A是由a1a2……aN這N個字符組成,Len(A)=N;
B=b1b2……bM,表示B是由b1b2……bM這M個字符組成,Len(B)=M;
定義LD(i,j)=LD(a1a2……ai,b1b2……bj),其中0≤i≤N,0≤j≤M;
初始化LD矩陣,根據LD(N,M)=LD(A,B),LD(0,0)=0,LD(0,j)=j,LD(i,0)=i分別計算LD矩陣初始值;
計算LD矩陣其它行,根據公式若ai=bj,則LD(i,j)=LD(i-1,j-1),若ai≠bj,則LD(i,j)=Min(LD(i-1,j-1),LD(i-1,j),LD(i,j-1))+1,最后計算得到LD(A,B)值;
計算句子A和句子B的相似度SIM(A,B)= LCS(A,B)/(LD(A,B)+LCS(A,B));
⑦將由步驟⑥得到的待比對文檔與任一個參考文檔的整體的相似度記錄至相應的數據庫中。
2.根據權利要求1所述的多格式文檔錄入并比對的方法,其特征在于:步驟②中,PDF格式的電子文檔的轉換方法是首先提取PDF 文檔中各頁的內容流,然后將提取到的內容流進行解密,再用Filter解碼算法對解密后的內容流進行解碼,最后從解碼后的內容流中提取文本內容及其相關信息并存儲為設定的統一格式的文檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網江蘇省電力有限公司常州供電分公司;國網江蘇省電力有限公司;國家電網公司,未經國網江蘇省電力有限公司常州供電分公司;國網江蘇省電力有限公司;國家電網公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810549599.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于圖形數據庫的數據處理系統、方法及裝置
- 下一篇:呈現相關興趣點





