[發明專利]一種句子信息指紋表示方法、句子查重方法及系統在審
| 申請號: | 202110886467.0 | 申請日: | 2021-08-03 |
| 公開(公告)號: | CN113642314A | 公開(公告)日: | 2021-11-12 |
| 發明(設計)人: | 祁智恒 | 申請(專利權)人: | 路米科技(江蘇)有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/216;G06F40/284;G06F16/215 |
| 代理公司: | 成都魚爪智云知識產權代理有限公司 51308 | 代理人: | 谷科均 |
| 地址: | 213000 江蘇省常州市天*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 句子 信息 指紋 表示 方法 系統 | ||
本發明提出了一種句子信息指紋表示方法、句子查重方法及系統,涉及信息處理技術領域。該句子信息指紋表示方法通過獲取待測句子信息;計算待測句子信息中的字數;根據字數在預置的字數表中進行匹配,得到字數對應的截取數量;根據截取數量按順序提取待測句子信息中對應截取數量的字;將提取的待測句子信息中對應截取數量的字分別進行UTF?8編碼,生成各個字對應的編碼信息;將各個字對應的編碼信息按照預設的參數進行求余,生成各個編碼的余數;將各個編碼余數按照順序進行排序,生成句子的信息指紋。從而避免了因關鍵詞和高頻詞的提取較為困難,導致指紋信息不夠準確的問題。
技術領域
本發明涉及信息處理技術領域,具體而言,涉及一種句子信息指紋表示方法、句子查重方法及系統。
背景技術
目前對一個文本信息提取指紋,主要是提取文中的關鍵詞和高頻詞,并作為指紋信息,當選取8個關鍵詞及其詞頻作為其指紋時,準確度在98%以上,查全率在30%左右。這說明要能“概括”該信息,找出其8個使用頻率最高的詞匯,基本可以代表這個信息,但是關鍵詞和高頻詞的提取較為困難,導致指紋信息不夠準確。
發明內容
本發明的目的在于提供一種句子信息指紋表示方法、句子查重方法及系統,用以改善現有技術中因關鍵詞和高頻詞的提取較為困難,導致指紋信息不夠準確的問題。
第一方面,本申請實施例提供一種句子信息指紋表示方法,其包括以下步驟:
獲取待測句子信息;
計算待測句子信息中的字數;
根據字數在預置的字數表中進行匹配,得到字數對應的截取數量;
根據截取數量按順序提取待測句子信息中對應截取數量的字;
將提取的待測句子信息中對應截取數量的字分別進行UTF-8編碼,生成各個字對應的編碼信息;
將各個字對應的編碼信息按照預設的參數進行求余,生成各個編碼的余數;
將各個編碼余數按照順序進行排序,生成句子的信息指紋。
上述實現過程中,通過獲取待測句子信息;計算待測句子信息中的字數;根據字數在預置的字數表中進行匹配,得到字數對應的截取數量;根據截取數量按順序提取待測句子信息中對應截取數量的字;將提取的待測句子信息中對應截取數量的字分別進行UTF-8編碼,生成各個字對應的編碼信息;將各個字對應的編碼信息按照預設的參數進行求余,生成各個編碼的余數;將各個編碼余數按照順序進行排序,生成句子的信息指紋。生成的句子的信息指紋是包括句子中的字的編碼,而不會去提取關鍵詞和高頻詞,從而避免了因關鍵詞和高頻詞的提取較為困難,導致指紋信息不夠準確的問題,同時句子中的字都來自與句子中,通過字的編碼來表示句子的信息指紋,因而得到的信息指紋更加準確。
基于第一方面,在本發明的一些實施例中,將提取的待測句子信息中對應截取數量的字分別進行UTF-8編碼,生成各個字對應的編碼信息的步驟包括以下步驟:
A1:判斷待測句子信息中對應數量的字是否為英文單詞,若是,則執行步驟A2;若否,則執行步驟A4;
A2:將字中的各個字母分別進行UTF-8編碼,生成各個字母對應的編碼信息;
A3:將各個字母對應的編碼信息進行求和計算,生成總的編碼信息作為該字對應的編碼信息;
A4:將待測句子信息中對應數量的字分別進行UTF-8編碼,生成各個字對應的編碼信息。
第二方面,本申請實施例提供一種句子查重方法,包括以下步驟:
獲取多條句子;
將各個句子按照句子信息指紋表示方法進行信息指紋表示,生成各個句子的信息指紋;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于路米科技(江蘇)有限公司,未經路米科技(江蘇)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110886467.0/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





