[發明專利]一種文本去重方法和裝置有效
| 申請號: | 201710225086.1 | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN107025218B | 公開(公告)日: | 2021-03-02 |
| 發明(設計)人: | 許維;鐘黎;王勵;劉黎春 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F16/31 |
| 代理公司: | 深圳翼盛智成知識產權事務所(普通合伙) 44300 | 代理人: | 黃威 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 方法 裝置 | ||
1.一種文本去重方法,其特征在于,包括:
獲取文本集合,所述文本集合包括多個待去重文本;
針對每個待去重文本,從待去重文本中截取相應的子文本串,得到每個待去重文本對應的文本串集合;
針對每個待去重文本,建立待去重文本與其文本串集合內子文本串的倒排索引;
基于所述倒排索引從所述文本集合中確定具有相同子文本串的待去重文本,得到每種子文本串對應的子文本集合;
分別對每種子文本串對應的子文本集合進行文本去重處理,得到每種子文本串對應的去重后文本集合;
根據每種子文本串對應的去重后文本集合,獲取所述文本集合去重后的結果文本集合。
2.如權利要求1所述的文本去重方法,其特征在于,針對每個待去重文本,建立待去重文本與其文本串集合內子文本串的倒排索引,包括:
針對每個待去重文本,將待去重文本對應的文本串集合內子文本串作為索引關鍵詞,并將該待去重文本作為所述索引關鍵詞對應的索引對象;
將所述索引關鍵詞及其對應的索引對象組成相應的索引對,以得到待去重文本與其文本串集合內子文本串的倒排索引;
基于所述倒排索引從所述文本集合中確定具有相同子文本串的待去重文本,得到每種子文本串對應的子文本集合,包括:
從索引對中確定同一索引關鍵詞下的索引對象,得到每種索引關鍵詞下的對象集合,進而得到每種子文本串對應的子文本集合。
3.如權利要求1所述的文本去重方法,其特征在于,分別對每種子文本串對應的子文本集合進行文本去重處理,包括:
針對每種子文本串,從該種子文本串對應的子文本集合中選取一個待去重文本作為種子文本,并將種子文本添加到空的去重結果集合中;
遍歷子文本集合中的待去重文本,并確定當遍歷到的待去重文本、與去重結果集合中的文本是否為相似文本;
若否,則將當前遍歷到的待去重文本添加至所述去重結果集合中,并遍歷所述子文本集合中下一個待去重文本;
若是,則遍歷所述子文本集合中下一個待去重文本;
當遍歷完子文本集合內所有文本時,將所述去重結果集合作為該種子文本串對應的去重后文本集合。
4.如權利要求3所述的文本去重方法,其特征在于,確定當遍歷到的待去重文本與去重結果集合中的文本是否為相似文本,包括:
獲取當前遍歷到的待去重文本與所述去重結果集合中文本之間的相似度參數;
根據所述相似度參數確定當遍歷到的待去重文本與去重結果集合中的文本是否為相似文本。
5.如權利要求4所述的文本去重方法,其特征在于,獲取當前遍歷到的待去重文本與去重結果集合中文本之間的相似度參數,包括:
分別對當前遍歷到的待去重文本、以及去重結果集合中文本進行分詞組處理,得到當前遍歷到的待去重文本對應的第一詞組集合、以及去重結果集合中文本對應的第二詞組集合;
根據所述第一詞組集合和所述第二詞組集合,獲取當前遍歷到的待去重文本以及去重結果集合中文本之間的文本相似度。
6.如權利要求1所述的文本去重方法,其特征在于,分別對每種子文本串對應的子文本集合進行文本去重處理,得到每種子文本串對應的去重后文本集合,包括:
分別將每種子文本串對應的子文本集合發送至相應的設備,以便所述設備對相應子文本串的子文本集合進行文本去重處理;
接收設備返回的相應子文本串的去重后文本集合,得到每種子文本串對應的去重后文本集合。
7.如權利要求1-6任一項所述的文本去重方法,其特征在于,針對每個待去重文本,從待去重文本中截取相應的子文本串,包括:
獲取子文本串的截取長度;
針對每個待去重文本,根據所述截取長度從待去重文本中滑動截取若干子文本串。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710225086.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據處理方法和裝置
- 下一篇:一種基于內部語義層次結構的詞嵌入表示方法





