[發明專利]一種多格式文檔錄入并比對的方法有效
| 申請號: | 201310696955.0 | 申請日: | 2013-12-18 |
| 公開(公告)號: | CN103823838B | 公開(公告)日: | 2018-07-20 |
| 發明(設計)人: | 鞠非;華凱;顧梅;吳國奇;湯丹 | 申請(專利權)人: | 國網江蘇省電力有限公司常州供電分公司;國網江蘇省電力有限公司;國家電網公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 常州市江海陽光知識產權代理有限公司 32214 | 代理人: | 陸文俊 |
| 地址: | 213003*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 格式 文檔 錄入 方法 | ||
1.一種多格式文檔錄入并比對的方法,包括如下步驟:
①判斷需要錄入的文檔是否為紙制文檔,如果為紙制文檔則將需要錄入的紙制文檔按照先后次序疊放整齊后放置到掃描設備上,通過掃描設備將文檔掃描成PDF格式的電子文檔并存儲到與掃描設備電連接的計算機的存儲設備的原始格式文檔庫中;
如果是包括PDF、Word或TXT在內的多種格式的電子文檔,則直接存儲到計算機的存儲設備的原始格式文檔庫中;
②通過計算機對原始格式文檔庫中的各個電子文檔轉換成統一格式的文檔并存儲到計算機的存儲設備的統一格式文檔庫中,可以根據需要自行設定轉換后的文件格式,優選的文件格式為Word格式或TXT文本形式,如果原始的電子文檔的文件格式與設定轉換后的文件格式一致則直接從原始格式文檔庫拷貝至統一格式文檔庫;
③對轉換后統一格式成Word格式或TXT文本形式的各個電子文檔的內容,通過分詞系統將各個文檔的內容提取為句子集合,并以與各個文檔相對應的條目的形式存儲到句子數據表中;通過分詞系統將各個文檔的內容提取為句子集合的具體過程是,將每個文檔進行分解形成文檔分解樹,每個文檔所對應的文檔分解樹包括n(n≥1)個句子,句子以矩陣形式存放,每個句子由行號、列號、長度、內容、相似度信息構成,則第n個句子的矩陣由行號n、列號n、長度n、內容n、相似度n構成;
④對轉換后統一格式成Word格式或TXT文本形式的各個電子文檔進行包括類別、標題、來源、關鍵詞、創建時間在內的關鍵屬性的標注,并以與各個文檔相對應的條目的形式存儲到句子數據表中;
⑤選擇最新錄入統一格式文檔庫的一個文檔或者統一格式文檔庫內某個文檔作為待比對文檔與統一格式文檔庫的其他所有文檔進行比對,首先通過句子數據表根據文檔的包括類別、標題、來源、關鍵詞、創建時間在內的關鍵屬性進行比對和匹配,從而從統一格式文檔庫中篩選出包括類別、標題、來源、關鍵詞、創建時間在內的關鍵屬性中的任一個屬性與待比對文檔的類別、標題、來源、關鍵詞、創建時間5個關鍵屬性的任一個屬性匹配的所有文檔;
⑥對由步驟⑤篩選出來的文檔作為參考文檔逐個與待比對文檔通過句子數據表中由步驟③得到的與各個文檔相對應的條目信息進行比對,2個文檔比對時以句子為單位,根據Nakatsu算法逐項比對句子從而計算句子之間的相似度,再根據各個句子的相似度利用算術平均法計算2個文檔整體的相似度;
⑦將由步驟⑥得到的待比對文檔與任一個參考文檔的整體的相似度記錄至相應的數據庫中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網江蘇省電力有限公司常州供電分公司;國網江蘇省電力有限公司;國家電網公司,未經國網江蘇省電力有限公司常州供電分公司;國網江蘇省電力有限公司;國家電網公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310696955.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種去除X射線影像濾線柵條紋的方法及系統
- 下一篇:在線內容采集





