[發明專利]一種文本去重方法和裝置有效
| 申請號: | 201710225086.1 | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN107025218B | 公開(公告)日: | 2021-03-02 |
| 發明(設計)人: | 許維;鐘黎;王勵;劉黎春 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F16/31 |
| 代理公司: | 深圳翼盛智成知識產權事務所(普通合伙) 44300 | 代理人: | 黃威 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 方法 裝置 | ||
本發明實施例公開了一種文本去重方法和裝置;本發明實施例采用獲取文本集合,該文本集合包括多個待去重文本,然后,針對每個待去重文本,從待去重文本中截取相應的子文本串,在該文本集合中確定具有相同子文本串的待去重文本,得到每種子文本串對應的子文本集合,分別對每種子文本串對應的子文本集合進行文本去重處理,得到每種子文本串對應的去重后文本集合,根據每種子文本串對應的去重后文本集合,獲取該文本集合去重后的結果文本集合;該方案可以極大地降低去重過程中需要兩兩比較的文本數量,降低文本去重的時間復雜度,從而提高文本去重效率。
技術領域
本發明涉及計算機技術領域,具體涉及一種文本去重方法和裝置。
背景技術
目前,在互聯網中充斥著海量的文本,并且包含有大量的重復文本內容。如果在互聯網中存在大量的重復文本,那么一方面降低了整體的文本質量,另一方面會浪費大量的存儲資源。
為了節省存儲資源,需要去除互聯網中重復的文本內容。目前的文本去重方式為:將多個待去重文本進行兩兩比較,基于比較結果將重復的文本去除。然而,目前文本去重方式在由于需要將待重文本兩兩進行比較,在面對海量待去重文本時,會花費大量時間。因此,目前的文本去重方式的時間復雜度較高,會導致文本去重效率比較低。
發明內容
本發明實施例提供一種文本去重方法和裝置,可以提高文本去重效率。
本發明實施例提供一種文本去重方法,包括:
獲取文本集合,所述文本集合包括多個待去重文本;
針對每個待去重文本,從待去重文本中截取相應的子文本串;
在所述文本集合中確定具有相同子文本串的待去重文本,得到每種子文本串對應的子文本集合;
分別對每種子文本串對應的子文本集合進行文本去重處理,得到每種子文本串對應的去重后文本集合;
根據每種子文本串對應的去重后文本集合,獲取所述文本集合去重后的結果文本集合。
相應的,本發明實施例還提供一種文本去重裝置,包括:
文本獲取單元,用于獲取文本集合,所述文本集合包括多個待去重文本;
截取單元,用于針對每個待去重文本,從待去重文本中截取相應的子文本串;
確定單元,用于在所述文本集合中確定具有相同子文本串的待去重文本,得到每種子文本串對應的子文本集合;
去重單元,用于分別對每種子文本串對應的子文本集合進行文本去重處理,得到每種子文本串對應的去重后文本集合;
結果獲取單元,用于根據每種子文本串對應的去重后文本集合,獲取所述文本集合去重后的結果文本集合。
本發明實施例采用獲取文本集合,該文本集合包括多個待去重文本,然后,針對每個待去重文本,從待去重文本中截取相應的子文本串,在該文本集合中確定具有相同子文本串的待去重文本,得到每種子文本串對應的子文本集合,分別對每種子文本串對應的子文本集合進行文本去重處理,得到每種子文本串對應的去重后文本集合,根據每種子文本串對應的去重后文本集合,獲取該文本集合去重后的結果文本集合。該方案可以通過對具有相同子文本串的子文本集合進行文本去重處理,從而實現對整個文本集合的文本去重處理;其無需對整個文本集合中的文本進行兩兩比較去重,并可以將在全局上進行文本兩兩比較去重變為只需對同一子文本串下的文本進行去重,因此,可以極大地降低了去重過程中需要兩兩比較的文本數量,降低文本去重的時間復雜度,提高文本去重效率。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710225086.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據處理方法和裝置
- 下一篇:一種基于內部語義層次結構的詞嵌入表示方法





