[發明專利]一種基于停用詞的相似文檔查詢方法無效

申請號：	201210461090.5	申請日：	2012-11-15
公開（公告）號：	CN102937994A	公開（公告）日：	2013-02-20
發明（設計）人：	林述民	申請（專利權）人：	北京銳安科技有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京君尚知識產權代理事務所(普通合伙) 11200	代理人：	余功勛
地址：	100044 北京市海***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于用詞相似文檔查詢方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及對電子化文檔與文檔之間相似度的查詢方法，具體涉及一種利用中文停頓詞比較文檔相似度的方法，屬于計算機語言處理及信息檢索技術領域。

背景技術

隨著互聯網技術的普及和應用，電子化文檔的使用量越來越大。電子化文檔在方便人們提高工作效率、節約紙張等自然資源的利用的同時，也帶來一些額外的問題和麻煩。如：電子化文檔比較容易復制，也比較容易傳播。這些文檔電子化的新特征使得文檔的抄襲在技術上更加容易。加之電子化數據量的日益增大，這類抄襲的人工判斷越來越困難。因此，非常有必要利用現代化信息技術來改進人們對文檔相似度判斷的方法，從而提高人們處理日益增長的海量電子化文檔的能力。

在過去幾十年內，人們對于自然語言處理的理論和技術都有了比較大的提高，電子文檔是文本電子化的產物，而文本正是人類自然語言描述的產物。利用自然語言的處理方法來改變過去對文檔逐字、逐詞進行比較的方法將有效提高文檔比對的效率和效果。

文檔相似性是文本信息處理領域的核心問題，很多的文本應用包括文檔聚類、文檔檢索、文檔過濾等，都密切依賴于文檔形似性的精確度量。在自然語言處理領域，人們總結了一些通用的方法和規則，如：N-Gram分詞方法（具體可參考A.Andoni?and?P.Indyk,“Near-optimal?hashing?algorithms?for?approximate?nearest?neighbor?in?highdimensions,”Comm.ACM?51:1,pp.117–122,2008.），基于Shingle的信息指紋對比（具體可參考2.A.Z.Broder,“On?the?resemblance?and?containment?of?documents,”Proc.Compression?and?Complexity?of?Sequences,pp.21–29,Positano?Italy,1997.）等。然而這些方法大多數據源于西方的西文文字處理，對于中文等東亞語種的特殊性沒有專門的應對。中文及東亞文字有典型的斷詞問題，這些問題在西方語種中是以單詞，即單字的形式出現，在表達上以空格分開。因此，西方文字天然不用分詞，而中文語言的處理恰恰相反，在進行結構化處理的時候，需要“分詞”的問題，也要考慮由此帶來的“分詞歧義”問題。所以，在文檔相似度比對方面，有必要充分考慮中文處理的特殊性。

發明內容

針對現有文獻相似度比較方法，本發明提出利用非精確、集合運算比對的算法來提高比對工作效率，利用中文“停用詞”（Stop?Word）來實現提高中文文檔對比效果的比對方法。

本發明的技術方案提出了一種基于停用詞的相似文檔查詢方法，其步驟包括：

1）將待查詢的兩文檔進行歸一化處理，去除文檔中所有非中文字字符信息；所述兩文檔，其一為待查文檔，另一取自一個或多個數據源；或兩文檔為從一個或多個數據源中提取的兩文檔，

2）根據分詞詞典對所述兩個文檔進行分詞操作，將該些文檔轉化成詞匯流；

3）在所述詞匯流中按照書寫習慣提取得到停用詞；

4）將所述停用詞后面的正常語義詞和該停用詞組合成分段信息指紋；

5）把所述分段信息指紋分別匯總形成所述兩個文檔的中指紋標識，并放入信息指紋庫中進行比對；

6）對所述信息指紋庫中指紋標識相似度進行計算，得到所述兩個文檔的相似度值；

7）將相似度值大于設定閾值的兩文檔作為相似文檔，按照設定方式輸出所有或部分相似文檔。

所述分段信息指紋通過唯一記數器記錄。

所述停用詞中按照書寫習慣由左到右進行提取同時去掉連續的重復詞。