[發(fā)明專利]基于句子級別的文本特征提取方法和文檔拷貝檢測系統(tǒng)無效
| 申請?zhí)枺?/td> | 201210000918.7 | 申請日: | 2012-01-04 |
| 公開(公告)號: | CN102591976A | 公開(公告)日: | 2012-07-18 |
| 發(fā)明(設計)人: | 俞昊旻;張奇;黃萱菁 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/22 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;盛志范 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 句子 級別 文本 特征 提取 方法 文檔 拷貝 檢測 系統(tǒng) | ||
技術領域
本發(fā)明屬于拷貝檢測技術領域,具體涉及一種基于句子級別的文本特征提取方法和文檔拷貝檢測系統(tǒng)。??
背景技術
隨著互聯(lián)網(wǎng)時代的發(fā)展,信息呈現(xiàn)出爆炸式增長的趨勢。由于數(shù)字文檔本身易于被復制的特點,導致網(wǎng)絡中出現(xiàn)了大數(shù)量的重復的網(wǎng)頁和文檔。這些重復的信息對基于Web信息的應用來說,造成了嚴重的負擔。因此,對于拷貝檢測問題的研究,在近年來逐漸成為了信息檢索領域的一個研究熱點。
現(xiàn)有的研究工作主要著眼于如何進行文檔級別的拷貝檢測。文檔級別拷貝檢測的研究成果在普通的網(wǎng)頁的拷貝檢測中取得了不錯的成果。但目前仍存在一些問題,無法用現(xiàn)有的針對文檔級別的方法來解決。
兩個較為典型的例子分別為文檔中抄襲部分和引用部分的拷貝檢測。由于抄襲通常不會是文檔級別的抄襲,而是段落級別和句子級別的抄襲,即將他人文章中的部分段落或句子抄入自己的文章中。因此抄襲的檢測無法使用文檔級別的拷貝檢測方法有效地檢測出來。而對于文檔中的引用也存在相同的問題。在文章或是新聞中出現(xiàn)引用時,引用的通常是幾句話或是一個短小的文字段落,因此兩個文檔之間的相似度不會高,因而也無法使用文檔級別的拷貝檢測方法有效地檢測出來。
除了以上的問題之外,在網(wǎng)頁的拷貝檢測中還存在一些不能使用文檔級別拷貝檢測方法解決的問題,如分頁新聞以及論壇中帖子(Thread)等的拷貝檢測。這些問題的一個共同特點是,兩個文檔之中只是部分互為拷貝,這些部分拷貝需要基于更細粒度的句子級別拷貝檢測的方法才能被有效地檢測出來。這類問題的解決方法通常分為兩個步驟:首先進行句子級別的拷貝檢測,即將文檔中互為拷貝的句子對檢測出來;然后,通過對互為拷貝的句子進行序列匹配(即將上一步中得到的互為拷貝的句子對,按照文檔集中起來,并從中找出互為拷貝的連續(xù)的序列),從而將文檔間互為拷貝的部分檢測并定位出來。如圖1所示,文檔1中第i1個句子到第j1個句子的部分與文檔2中第m1個句子到第n1個句子的部分互為拷貝,而同時文檔1中第i2個句子到第j2個句子的部分與文檔2中第m2個句子到第n2個句子的部分互為拷貝,這樣就將句子級別的拷貝檢測提高到了段落的級別。
可以看出算法第一步中的句子級別的拷貝檢測將直接影響到整個任務的精度和效率。因此有必要對句子級別的拷貝檢測進行更詳細的研究。同時如何實現(xiàn)一個可以高速準確地找出文檔集中包含部分拷貝的文檔對,并定位互為拷貝的范圍的文檔拷貝檢測系統(tǒng)也是本發(fā)明的研究內(nèi)容之一。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種算法精度和效率高的文本特征提取方法,以及相應的文檔拷貝檢測系統(tǒng)。
本發(fā)明提出的文本特征提取方法,是一種改進型的基于句子級別的文本特征提取方法,稱為Low-IDF-Sig算法。該算法可以高效地從句子中提取出可以很好地表示整個句子核心內(nèi)容的Low-IDF-Sig特征。本發(fā)明在句子級別的GoldenSet實驗集上對本發(fā)明的Low-IDF-Sig方法,以及現(xiàn)在已有的文檔級別上較有代表性的方法(包括Shingling算法、SpotSig算法以及I-Match算法)進行了綜合性的評測。?
本發(fā)明提出的文檔拷貝檢測系統(tǒng),是一種基于倒排索引進行剪枝的可以高速準確地找出文檔集中包含部分拷貝的文檔對,并定位互為拷貝的范圍的文檔拷貝檢測系統(tǒng)。
接下來將對上述兩個方面分別進行說明。
一、Low-IDF-Sig特征提取方法
該算法選取一定數(shù)量的具有最低逆向文件頻率(inverse?document?frequency,IDF)的常見詞匯作為先行詞,以抽取改進的Shingle特征,用以表示整個句子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經(jīng)復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210000918.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種洛塞維的制備方法
- 下一篇:帶接納袋的采果刀





