[發(fā)明專利]一種句子信息指紋表示方法、句子查重方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110886467.0 | 申請日: | 2021-08-03 |
| 公開(公告)號: | CN113642314A | 公開(公告)日: | 2021-11-12 |
| 發(fā)明(設(shè)計)人: | 祁智恒 | 申請(專利權(quán))人: | 路米科技(江蘇)有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/216;G06F40/284;G06F16/215 |
| 代理公司: | 成都魚爪智云知識產(chǎn)權(quán)代理有限公司 51308 | 代理人: | 谷科均 |
| 地址: | 213000 江蘇省常州市天*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 句子 信息 指紋 表示 方法 系統(tǒng) | ||
1.一種句子信息指紋表示方法,其特征在于,包括以下步驟:
獲取待測句子信息;
計算待測句子信息中的字?jǐn)?shù);
根據(jù)字?jǐn)?shù)在預(yù)置的字?jǐn)?shù)表中進行匹配,得到字?jǐn)?shù)對應(yīng)的截取數(shù)量;
根據(jù)截取數(shù)量按順序提取待測句子信息中對應(yīng)截取數(shù)量的字;
將提取的待測句子信息中對應(yīng)截取數(shù)量的字分別進行UTF-8編碼,生成各個字對應(yīng)的編碼信息;
將各個字對應(yīng)的編碼信息按照預(yù)設(shè)的參數(shù)進行求余,生成各個編碼的余數(shù);
將各個編碼余數(shù)按照順序進行排序,生成句子的信息指紋。
2.根據(jù)權(quán)利要求1所述的句子信息指紋表示方法,其特征在于,所述將提取的待測句子信息中對應(yīng)截取數(shù)量的字分別進行UTF-8編碼,生成各個字對應(yīng)的編碼信息的步驟包括以下步驟:
A1:判斷待測句子信息中對應(yīng)數(shù)量的字是否為英文單詞,若是,則執(zhí)行步驟A2;若否,則執(zhí)行步驟A4;
A2:將字中的各個字母分別進行UTF-8編碼,生成各個字母對應(yīng)的編碼信息;
A3:將各個字母對應(yīng)的編碼信息進行求和計算,生成總的編碼信息作為該字對應(yīng)的編碼信息;
A4:將待測句子信息中對應(yīng)數(shù)量的字分別進行UTF-8編碼,生成各個字對應(yīng)的編碼信息。
3.一種句子查重方法,其特征在于,包括以下步驟:
獲取多條句子;
將各個句子按照如權(quán)利要求1-2中任意一項的句子信息指紋表示方法進行信息指紋表示,生成各個句子的信息指紋;
將各個句子的信息指紋分別進行哈希散列,生成各個句子的散列值;
將各個句子的散列值分別進行對比,生成對比結(jié)果;
根據(jù)對比結(jié)果對多條句子進行篩選,得到重復(fù)句子。
4.根據(jù)權(quán)利要求3所述的句子查重方法,其特征在于,還包括以下步驟:
將各個句子的信息指紋分別按照第一哈希值進行哈希散列,生成各個句子的散列值;
將各個句子的散列值分別進行對比,生成第一對比結(jié)果;
根據(jù)第一對比結(jié)果對多條句子進行篩選,得到待選重復(fù)句子;
將待選重復(fù)句子的信息指紋分別按照第二哈希值進行哈希散列,生成各個待選重復(fù)句子的散列值;
將各個待選重復(fù)句子的散列值分別進行對比,生成第二對比結(jié)果;
根據(jù)第二對比結(jié)果對待選重復(fù)句子進行篩選,得到重復(fù)句子。
5.根據(jù)權(quán)利要求3所述的句子查重方法,其特征在于,所述將各個句子的散列值分別進行對比,生成對比結(jié)果的步驟包括以下步驟:
將各個句子的散列值中各個字的散列值分別進行對比,得到各個字的散列值的對比結(jié)果;
根據(jù)各個字的散列值的對比結(jié)果統(tǒng)計出對比結(jié)果為相同的字的散列值的個數(shù);
將所述個數(shù)與預(yù)置的個數(shù)閥值進行對比,得到對比結(jié)果。
6.一種句子信息指紋表示系統(tǒng),其特征在于,包括:
信息獲取模塊,用于獲取待測句子信息;
字?jǐn)?shù)計算模塊,用于計算待測句子信息中的字?jǐn)?shù);
匹配模塊,用于根據(jù)字?jǐn)?shù)在預(yù)置的字?jǐn)?shù)表中進行匹配,得到字?jǐn)?shù)對應(yīng)的截取數(shù)量;
字截取模塊,用于根據(jù)截取數(shù)量按順序提取待測句子信息中對應(yīng)截取數(shù)量的字;
編碼模塊,用于將提取的待測句子信息中對應(yīng)截取數(shù)量的字分別進行UTF-8編碼,生成各個字對應(yīng)的編碼信息;
求余計算模塊,用于將各個字對應(yīng)的編碼信息按照預(yù)設(shè)的參數(shù)進行求余,生成各個編碼的余數(shù);
信息指紋生成模塊,用于將各個編碼余數(shù)按照順序進行排序,生成句子的信息指紋。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于路米科技(江蘇)有限公司,未經(jīng)路米科技(江蘇)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110886467.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





