日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于停用詞的相似文檔查詢方法無效

專利信息
申請號: 201210461090.5 申請日: 2012-11-15
公開(公告)號: CN102937994A 公開(公告)日: 2013-02-20
發明(設計)人: 林述民 申請(專利權)人: 北京銳安科技有限公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京君尚知識產權代理事務所(普通合伙) 11200 代理人: 余功勛
地址: 100044 北京市海*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 用詞 相似 文檔 查詢 方法
【說明書】:

技術領域

發明涉及對電子化文檔與文檔之間相似度的查詢方法,具體涉及一種利用中文停頓詞比較文檔相似度的方法,屬于計算機語言處理及信息檢索技術領域。

背景技術

隨著互聯網技術的普及和應用,電子化文檔的使用量越來越大。電子化文檔在方便人們提高工作效率、節約紙張等自然資源的利用的同時,也帶來一些額外的問題和麻煩。如:電子化文檔比較容易復制,也比較容易傳播。這些文檔電子化的新特征使得文檔的抄襲在技術上更加容易。加之電子化數據量的日益增大,這類抄襲的人工判斷越來越困難。因此,非常有必要利用現代化信息技術來改進人們對文檔相似度判斷的方法,從而提高人們處理日益增長的海量電子化文檔的能力。

在過去幾十年內,人們對于自然語言處理的理論和技術都有了比較大的提高,電子文檔是文本電子化的產物,而文本正是人類自然語言描述的產物。利用自然語言的處理方法來改變過去對文檔逐字、逐詞進行比較的方法將有效提高文檔比對的效率和效果。

文檔相似性是文本信息處理領域的核心問題,很多的文本應用包括文檔聚類、文檔檢索、文檔過濾等,都密切依賴于文檔形似性的精確度量。在自然語言處理領域,人們總結了一些通用的方法和規則,如:N-Gram分詞方法(具體可參考A.Andoni?and?P.Indyk,“Near-optimal?hashing?algorithms?for?approximate?nearest?neighbor?in?highdimensions,”Comm.ACM?51:1,pp.117–122,2008.),基于Shingle的信息指紋對比(具體可參考2.A.Z.Broder,“On?the?resemblance?and?containment?of?documents,”Proc.Compression?and?Complexity?of?Sequences,pp.21–29,Positano?Italy,1997.)等。然而這些方法大多數據源于西方的西文文字處理,對于中文等東亞語種的特殊性沒有專門的應對。中文及東亞文字有典型的斷詞問題,這些問題在西方語種中是以單詞,即單字的形式出現,在表達上以空格分開。因此,西方文字天然不用分詞,而中文語言的處理恰恰相反,在進行結構化處理的時候,需要“分詞”的問題,也要考慮由此帶來的“分詞歧義”問題。所以,在文檔相似度比對方面,有必要充分考慮中文處理的特殊性。

發明內容

針對現有文獻相似度比較方法,本發明提出利用非精確、集合運算比對的算法來提高比對工作效率,利用中文“停用詞”(Stop?Word)來實現提高中文文檔對比效果的比對方法。

本發明的技術方案提出了一種基于停用詞的相似文檔查詢方法,其步驟包括:

1)將待查詢的兩文檔進行歸一化處理,去除文檔中所有非中文字字符信息;所述兩文檔,其一為待查文檔,另一取自一個或多個數據源;或兩文檔為從一個或多個數據源中提取的兩文檔,

2)根據分詞詞典對所述兩個文檔進行分詞操作,將該些文檔轉化成詞匯流;

3)在所述詞匯流中按照書寫習慣提取得到停用詞;

4)將所述停用詞后面的正常語義詞和該停用詞組合成分段信息指紋;

5)把所述分段信息指紋分別匯總形成所述兩個文檔的中指紋標識,并放入信息指紋庫中進行比對;

6)對所述信息指紋庫中指紋標識相似度進行計算,得到所述兩個文檔的相似度值;

7)將相似度值大于設定閾值的兩文檔作為相似文檔,按照設定方式輸出所有或部分相似文檔。

所述分段信息指紋通過唯一記數器記錄。

所述停用詞中按照書寫習慣由左到右進行提取同時去掉連續的重復詞。

所述正常語義詞選用至少一個以上。

所述正常語義詞選用2個。

所述信息指紋庫通過用戶計算機保存至本地或上傳到遠端服務器。

所述停用詞通過連續提取得到。

所述字符信息包括:中文標點、符號亂碼。

所述指紋庫中指紋標識相似度通過jaccard相似性算法計算。

所述指紋庫中指紋標識相似度通過Euclidean?Distances或Cosine?Distance方法計算。

本發明的有益效果

本發明的優點在于,使用了“中文停用詞”+多個“后續詞”的方法,符合中文語境,尤其對于一些有一定寫作習慣的文章而言,具備更好的比較效果。該方法用于提高中文文檔相似度比對的效果和比對的效率,提高人們利用計算機處理相似文檔的能力,使人們可以更高效率的在海量文檔中找出抄襲或引用原文的文檔。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳安科技有限公司,未經北京銳安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201210461090.5/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产一区二区精华| 亚洲精品国产精品国产| 一区二区91| 精品国产乱码久久久久久久| 亚洲精品丝袜| 狠狠色噜噜狠狠狠狠黑人| 久久午夜无玛鲁丝片午夜精品| 粉嫩久久久久久久极品| 精品欧美一区二区在线观看| 亚洲精品suv精品一区二区| 日本黄页在线观看| xoxoxo亚洲国产精品| 91超薄丝袜肉丝一区二区| 亚洲第一天堂久久| 亚洲女人av久久天堂| 狠狠色狠狠综合久久| 国产麻豆一区二区三区精品| 久久99国产精品视频| 福利片91| 欧美精品八区| 久久99精品久久久大学生| 91狠狠操| 日韩av在线电影网| 国产视频一区二区视频| 国产一区亚洲一区| 国产精品国产三级国产专区51区| 国产真实一区二区三区| 国产精品一卡二卡在线观看| 曰韩av在线| 91看片淫黄大片91| 久久99视频免费| 久久国产欧美一区二区免费| 国产精品三级久久久久久电影| 色综合久久网| 91看片淫黄大片91| 91精品色| 久久久久久久久亚洲精品一牛| 久久99国产视频| 丰满岳妇伦4在线观看| 在线国产精品一区| 午夜av免费看| 欧美精品五区| 亚洲欧美国产精品一区二区| 99久久精品一区字幕狠狠婷婷| 久久夜色精品国产亚洲| 国产一级一片免费播放| 中文字幕日本一区二区| 欧美一区二区三区免费电影| 久久久久偷看国产亚洲87| 久久一区二区精品视频| 国产中文字幕一区二区三区| 91精品久久天干天天天按摩| 97精品国产97久久久久久| 欧美一区二区三区在线免费观看 | 中文字幕制服狠久久日韩二区| 久久精品国产一区二区三区| 国产精品视频1区| 午夜激情在线播放| 国产毛片精品一区二区| 四季av中文字幕一区| 天天干狠狠插| 国产黄色网址大全| 国产aⅴ精品久久久久久| 日本三级香港三级网站| 中文字幕一级二级三级| 久久99国产综合精品| 国产在线拍偷自揄拍视频 | 夜夜嗨av禁果av粉嫩av懂色av| 精品国产一区二区三| 午夜一级电影| 国产精品久久久久久久久久久杏吧| 中文字幕在线视频一区二区| 国产69精品99久久久久久宅男| 欧美hdfree性xxxx| 日韩中文字幕久久久97都市激情| 狠狠躁狠狠躁视频专区| 国产精品综合久久| 亚洲欧洲日韩av| 欧美精品一区久久| 李采潭无删减版大尺度| 日韩精品午夜视频| 久久午夜鲁丝片| 国产资源一区二区三区| 日韩av在线影院| 国产精品网站一区| 国产伦精品一区二| 欧美二区精品| 欧美国产一区二区在线| 国产精品自拍在线| 狠狠综合久久av一区二区老牛| 日韩欧美国产精品一区| 黄色国产一区二区| 亚洲伊人久久影院| 欧美一区二三区| 国产亚洲精品久久777777| 久爱精品视频在线播放| 亚洲日韩aⅴ在线视频| 国产精品久久久久久久岛一牛影视| 一区二区三区四区视频在线| 久久99精品久久久久国产越南| 欧美精品一级二级| 色噜噜狠狠色综合中文字幕| 欧美激情精品久久久久久免费| 日韩亚洲欧美一区二区| 午夜电影天堂| 国产91视频一区| 91av一区二区三区| 91制服诱惑| 成年人性生活免费看| av国产精品毛片一区二区小说| 国产淫片免费看| 久久久久久久国产| 国产二区视频在线播放 | 午夜欧美a级理论片915影院| 97国产婷婷综合在线视频,| 精品视频久| 97人人澡人人添人人爽超碰| 日韩精品一区在线观看| 国产二区视频在线播放 | 在线视频国产一区二区| 国产精品一区二区在线观看| 欧美日本一二三区| 4399午夜理伦免费播放大全 | 国产大学生呻吟对白精彩在线| 电影91久久久| 精品国产一区二区三区忘忧草| 黄毛片在线观看| xxxx18日本护士高清hd| 亚洲精品卡一卡二 | 91精品免费观看| 99精品国产99久久久久久97| 国产理论一区二区三区| 欧美片一区二区| 欧美日韩国产精品综合| 亚洲精品日本久久一区二区三区| 国产一区二区手机在线观看| 91热精品| 国产欧美一区二区三区免费看| 911久久香蕉国产线看观看| 国产suv精品一区二区4| 国产真裸无庶纶乱视频| 456亚洲精品| 亚洲天堂国产精品| 日韩偷拍精品| 欧美67sexhd| 91丝袜国产在线播放| 国产精品女同一区二区免费站| 久久亚洲综合国产精品99麻豆的功能介绍| 91制服诱惑| 91视频国产九色| 久久久久国产精品www| 亚州精品国产| 欧美日韩九区| 激情久久久久久| 欧美日韩一区二区三区在线播放| 九九精品久久| 欧美一区二区三区另类| 免费91麻豆精品国产自产在线观看| xxxx18日本护士高清hd| 午夜影院伦理片| 亚洲精品一品区二品区三品区 | 国产一二区精品| 国产91麻豆视频| 国产一区二区播放| 91一区在线观看| 欧美精品综合视频| 欧美精品久久一区二区| 久久青草欧美一区二区三区| 精品国产伦一区二区三区免费| 偷拍自中文字av在线| 日韩久久精品一区二区| 精品久久久影院| av午夜剧场| 日韩不卡毛片| 一区二区国产盗摄色噜噜| 中文字幕在线播放一区| 国产一区亚洲一区| 欧美精品国产一区二区| 国产九九九精品视频| 精品一区二区超碰久久久| 久久精品视频3| 午夜社区在线观看| 四虎国产精品永久在线国在线| 国产一区中文字幕在线观看| 国产一区二区视频免费在线观看 | 欧美久久精品一级c片| 激情久久久久久| 真实的国产乱xxxx在线91| 亚洲欧美日韩精品suv| 国产一区二区在线观| 国产欧美亚洲精品第一区软件| 国产麻豆一区二区三区精品| 欧美一区二区三区免费在线观看| 日韩精品乱码久久久久久| 日韩一级精品视频在线观看| 国产精华一区二区精华| 国产精品免费观看国产网曝瓜| 国产主播啪啪| 国产伦理精品一区二区三区观看体验| 亚洲国产精品综合| 日韩精品久久一区二区三区| 一区二区欧美精品| 91国偷自产中文字幕婷婷| 免费的午夜毛片| 国产盗摄91精品一区二区三区| 日韩亚洲欧美一区| 国产精品一二三区免费| 91精品视频在线免费观看| 日本一区二区免费电影| 久久99久久99精品免观看软件| 性夜影院在线观看| 亚洲精品一区,精品二区| 99精品欧美一区二区| 一区二区三区在线观看国产| 欧美一区二区久久| 国产精品一卡二卡在线观看| 久久久久久国产一区二区三区| 午夜av男人的天堂| 亚洲少妇一区二区| 久久久精品观看| 日本精品一二三区| 久久激情综合网| av毛片精品| xxxx18hd护士hd护士| 日本aⅴ精品一区二区三区日| 国产精品一区二区av日韩在线| 自拍偷在线精品自拍偷无码专区 | 午夜性电影| 亚洲欧美色图在线| 午夜看大片| 99国产精品一区二区| 欧美日韩中文字幕三区| 久久一区二区精品视频| 99精品视频一区二区| 一区二区三区国产精品| 亚洲精品国产主播一区| 午夜剧场伦理| 欧美精品日韩精品| 三级电影中文| 国产乱码一区二区| 亚洲精品一品区二品区三品区| 日韩一级片免费视频| 久久99精品国产| 久久天堂国产香蕉三区| 午夜一区二区视频| 激情久久一区|