[發明專利]一種檢測重復文本的方法及裝置有效
| 申請號: | 201310144339.4 | 申請日: | 2013-04-23 |
| 公開(公告)號: | CN103246640A | 公開(公告)日: | 2013-08-14 |
| 發明(設計)人: | 李鵬;孫熙;陸承恩 | 申請(專利權)人: | 北京十分科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100004 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 檢測 重復 文本 方法 裝置 | ||
1.一種檢測文本重復的方法,其特征在于,包括以下步驟:
獲得待測文本和現有文本中的特征詞和特征詞序列;
將待測文本中的每個特征詞分別與現有文本中的每個特征詞進行匹配;
在特征詞匹配成功時,獲取匹配一致的特征詞在待測文本特征詞序列中的絕對位置與在現有文本特征詞序列中的絕對位置;
判斷是否存在一組匹配一致的特征詞,所述一組的所有特征詞在待測文本與現有文本的特征詞序列中的絕對位置有線性關系;
若存在一組匹配一致的特征詞,根據所述一組匹配一致的特征詞在待測文本和現有文本的特征詞序列中的絕對位置,確定待測文本與現有文本的重復區域。
2.如權利要求1所述的方法,其特征在于,獲得待測文本中的特征詞和待測文本特征詞序列的步驟包括:
將待測文本和現有文本進行分詞處理;
對待測文本和現有文本進行過濾處理,獲得待測文本和現有文本的特征詞;
依照特征詞在待測文本和現有文本中的位置順序,分別獲得特征詞在待測文本和現有文本中的特征詞序列。
3.如權利要求1所述的方法,其特征在于,判斷是否存在一組匹配一致的特征詞的步驟包括:
計算匹配一致的特征詞在待測文本中的絕對位置與在現有文本中的絕對位置之間的位置差;
統計所述位置差的取值次數;
計算每個所述位置差的取值次數與所有位置差取值次數之和的第一比值;
判斷是否存在大于第一預設閾值的第一比值;
若存在大于第一預設閾值的第一比值,則將與大于第一預設閾值的第一比值所對應的特征詞歸為一組匹配一致的特征詞。
4.如權利要求3所述的方法,其特征在于,判斷是否存在一組匹配成功的特征詞的步驟還包括:
將多個鄰近的匹配一致的特征詞位置差作為一組,計算一組位置差取值次數之和與所有位置差取值次數之和的第二比值;
判斷是否存在大于第二預設閾值的第二比值;
若存在大于第二預設閾值的第二比值,則將大于第二預設閾值的第二比值所對應的特征詞歸為一組匹配一致的特征詞。
5.如權利要求1所述的方法,其特征在于,判斷是否存在一組匹配成功的特征詞的步驟包括:
依據匹配一致的特征詞在待測文本和現有文本中的絕對位置,確定匹配一致的特征詞在直角坐標系中的坐標,其中直角坐標系是根據特征詞在待測文本中的絕對位置和現有文本中的絕對位置構造的;
根據匹配一致的特征詞的坐標,進行直線擬合處理;
判斷是否存在一組坐標,其中,該一組坐標是通過擬合成一條斜率近似為1的直線而確定的;
若存在所述一組坐標,則將與擬合成一條斜率近似為1的直線的一組坐標相對應的特征詞歸為一組匹配一致的特征詞。
6.一種檢測文本重復的裝置,其特征在于,包括:
提取模塊,用于獲得待測文本和現有文本中的特征詞和特征詞序列;
匹配模塊,用于將待測文本中的每個特征詞分別與現有文本中的每個特征詞進行匹配;
位置獲取模塊,用于在匹配模塊匹配特征詞成功時,獲取匹配一致的特征詞在待測文本特征詞序列中的絕對位置與在現有文本特征詞序列中的絕對位置;
判斷模塊,用于判斷是否存在一組匹配一致的特征詞,所述一組的所有特征詞在待測文本特征詞序列中的絕對位置與在現有文本特征詞序列中的絕對位置有線性關系;
重復文本確定模塊,用于在判斷存在一組匹配一致的特征詞時,根據所述一組匹配一致的特征詞在待測文本和現有文本的特征詞序列中的絕對位置,確定待測文本與現有文本的重復區域。
7.如權利要求6所述的裝置,其特征在于,提取模塊包括:
分詞處理單元,用于將待測文本和現有文本進行分詞處理;
過濾單元,用于對待測文本和現有文本進行過濾處理,獲得待測文本和現有文本的特征詞;
排序單元,用于依照特征詞在待測文本和現有文本的位置順序,分別獲得特征詞在待測文本和現有文本中特征詞序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京十分科技有限公司,未經北京十分科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310144339.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:鉚頭裝置
- 下一篇:一種車燈涂膠輔助工裝





