[發明專利]一種基于停用詞的相似文檔查詢方法無效
| 申請號: | 201210461090.5 | 申請日: | 2012-11-15 |
| 公開(公告)號: | CN102937994A | 公開(公告)日: | 2013-02-20 |
| 發明(設計)人: | 林述民 | 申請(專利權)人: | 北京銳安科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 余功勛 |
| 地址: | 100044 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 用詞 相似 文檔 查詢 方法 | ||
技術領域
本發明涉及對電子化文檔與文檔之間相似度的查詢方法,具體涉及一種利用中文停頓詞比較文檔相似度的方法,屬于計算機語言處理及信息檢索技術領域。
背景技術
隨著互聯網技術的普及和應用,電子化文檔的使用量越來越大。電子化文檔在方便人們提高工作效率、節約紙張等自然資源的利用的同時,也帶來一些額外的問題和麻煩。如:電子化文檔比較容易復制,也比較容易傳播。這些文檔電子化的新特征使得文檔的抄襲在技術上更加容易。加之電子化數據量的日益增大,這類抄襲的人工判斷越來越困難。因此,非常有必要利用現代化信息技術來改進人們對文檔相似度判斷的方法,從而提高人們處理日益增長的海量電子化文檔的能力。
在過去幾十年內,人們對于自然語言處理的理論和技術都有了比較大的提高,電子文檔是文本電子化的產物,而文本正是人類自然語言描述的產物。利用自然語言的處理方法來改變過去對文檔逐字、逐詞進行比較的方法將有效提高文檔比對的效率和效果。
文檔相似性是文本信息處理領域的核心問題,很多的文本應用包括文檔聚類、文檔檢索、文檔過濾等,都密切依賴于文檔形似性的精確度量。在自然語言處理領域,人們總結了一些通用的方法和規則,如:N-Gram分詞方法(具體可參考A.Andoni?and?P.Indyk,“Near-optimal?hashing?algorithms?for?approximate?nearest?neighbor?in?highdimensions,”Comm.ACM?51:1,pp.117–122,2008.),基于Shingle的信息指紋對比(具體可參考2.A.Z.Broder,“On?the?resemblance?and?containment?of?documents,”Proc.Compression?and?Complexity?of?Sequences,pp.21–29,Positano?Italy,1997.)等。然而這些方法大多數據源于西方的西文文字處理,對于中文等東亞語種的特殊性沒有專門的應對。中文及東亞文字有典型的斷詞問題,這些問題在西方語種中是以單詞,即單字的形式出現,在表達上以空格分開。因此,西方文字天然不用分詞,而中文語言的處理恰恰相反,在進行結構化處理的時候,需要“分詞”的問題,也要考慮由此帶來的“分詞歧義”問題。所以,在文檔相似度比對方面,有必要充分考慮中文處理的特殊性。
發明內容
針對現有文獻相似度比較方法,本發明提出利用非精確、集合運算比對的算法來提高比對工作效率,利用中文“停用詞”(Stop?Word)來實現提高中文文檔對比效果的比對方法。
本發明的技術方案提出了一種基于停用詞的相似文檔查詢方法,其步驟包括:
1)將待查詢的兩文檔進行歸一化處理,去除文檔中所有非中文字字符信息;所述兩文檔,其一為待查文檔,另一取自一個或多個數據源;或兩文檔為從一個或多個數據源中提取的兩文檔,
2)根據分詞詞典對所述兩個文檔進行分詞操作,將該些文檔轉化成詞匯流;
3)在所述詞匯流中按照書寫習慣提取得到停用詞;
4)將所述停用詞后面的正常語義詞和該停用詞組合成分段信息指紋;
5)把所述分段信息指紋分別匯總形成所述兩個文檔的中指紋標識,并放入信息指紋庫中進行比對;
6)對所述信息指紋庫中指紋標識相似度進行計算,得到所述兩個文檔的相似度值;
7)將相似度值大于設定閾值的兩文檔作為相似文檔,按照設定方式輸出所有或部分相似文檔。
所述分段信息指紋通過唯一記數器記錄。
所述停用詞中按照書寫習慣由左到右進行提取同時去掉連續的重復詞。
所述正常語義詞選用至少一個以上。
所述正常語義詞選用2個。
所述信息指紋庫通過用戶計算機保存至本地或上傳到遠端服務器。
所述停用詞通過連續提取得到。
所述字符信息包括:中文標點、符號亂碼。
所述指紋庫中指紋標識相似度通過jaccard相似性算法計算。
所述指紋庫中指紋標識相似度通過Euclidean?Distances或Cosine?Distance方法計算。
本發明的有益效果
本發明的優點在于,使用了“中文停用詞”+多個“后續詞”的方法,符合中文語境,尤其對于一些有一定寫作習慣的文章而言,具備更好的比較效果。該方法用于提高中文文檔相似度比對的效果和比對的效率,提高人們利用計算機處理相似文檔的能力,使人們可以更高效率的在海量文檔中找出抄襲或引用原文的文檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳安科技有限公司,未經北京銳安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210461090.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據處理系統
- 下一篇:包含無數據的柵格數據寫入及讀取的方法及裝置





