[發明專利]文件比對系統在審
| 申請號: | 202010939312.4 | 申請日: | 2020-09-09 |
| 公開(公告)號: | CN112527952A | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 坂本大輔 | 申請(專利權)人: | 本田技研工業株式會社 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/194;G06F40/284 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 楊貝貝;臧建明 |
| 地址: | 日本東京*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文件 系統 | ||
1.一種文件比對系統,其特征在于,包括:
序列化文件提取元件,從被檢驗文件(Dt)及參照文件(Dr)各自中,提取指定種類的單詞的序列集合來分別作為序列化被檢驗文件(nt)及序列化參照文件(nr);
第一命題定義元件,將由所述序列化文件提取元件所提取的所述序列化被檢驗文件(nt)及所述序列化參照文件(nr)的共同單詞集合所含的單詞作為命題而定義為真,將除此以外的單詞作為命題而定義為假,并且,在作為命題而定義為假的單詞中,包含所述單詞的第一指定長度的單詞序列中,作為命題而定義為真的單詞的比率為第一指定值以上的情況下,將所述單詞再定義為通配符,且作為命題而再定義為真;
比較用單詞序列提取元件,從所述序列化被檢驗文件(nt)及所述序列化參照文件(nr)各自中,分別提取比較用被檢驗單詞序列(nt*)及比較用參照單詞序列(nr*),所述比較用被檢驗單詞序列(nt*)及比較用參照單詞序列(nr*)包含由所述第一命題定義元件作為命題而定義為真的單詞的序列集合;以及
類似率推算元件,將由所述比較用單詞序列提取元件所提取的比較用被檢驗單詞序列(nt*)及比較用參照單詞序列(nr*)進行比對,在視為被定義為所述通配符的單詞與所有單詞一致時的單詞序列的連續一致部位的長度為基準值以上的情況下,基于所述連續一致部位所含的單詞數及各單詞的字符數中的至少一者,來推算所述被檢驗文件(Dt)及所述參照文件(Dr)的類似率。
2.根據權利要求1所述的文件比對系統,其特征在于,還包括:
第二命題定義元件,針對所述序列化被檢驗文件(nt)及所述序列化參照文件(nr)的所述共同單詞集合(C)所含的各個單詞,在包含于多個類似部位中的任一個類似部位的情況下,作為命題而定義為真,在并非如此的情況下,作為命題而定義為假,所述多個類似部位是在被定義為所述通配符的單詞的前后將所述連續一致部位分割而定義,
所述類似率推算元件以下述方式推算所述類似率:所述共同單詞集合(C)所含的單詞中,由所述第二命題定義元件作為命題而定義為假的單詞的個數或所述單詞的字符數中的至少一者越多,則所述類似率越高。
3.根據權利要求2所述的文件比對系統,其特征在于,
所述類似率推算元件推算下述比率作為所述類似率:相對于所述共同單詞集合(C)所含的單詞的個數或所述單詞的字符數中的至少一者,由所述第二命題定義元件作為命題而定義為假的單詞的個數或所述單詞的字符數中的至少一者之比率。
4.根據權利要求1至3中任一項所述的文件比對系統,其特征在于,
所述第一命題定義元件在作為命題而定義為真的單詞中,包含所述單詞的第二指定長度的單詞序列中,作為命題而定義為假的單詞的比率為第二指定值以上的情況下,將所述單詞作為命題而再定義為假。
5.根據權利要求1至4中任一項所述的文件比對系統,其特征在于,
所述序列化文件提取元件將所述被檢驗文件(Dt)及所述參照文件(Dr)各自所含的與所述指定種類不同的規定種類的單詞轉換為所述指定種類的單詞后,分別提取所述序列化被檢驗文件(nt)及所述序列化參照文件(nr)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于本田技研工業株式會社,未經本田技研工業株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010939312.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:具有功率顯示功能的計算機電源及計算機
- 下一篇:半導體裝置及其制造方法





