[發明專利]基于句子級別的文本特征提取方法和文檔拷貝檢測系統無效

申請號：	201210000918.7	申請日：	2012-01-04
公開（公告）號：	CN102591976A	公開（公告）日：	2012-07-18
發明（設計）人：	俞昊旻;張奇;黃萱菁	申請（專利權）人：	復旦大學
主分類號：	G06F17/30	分類號：	G06F17/30;G06F17/22
代理公司：	上海正旦專利代理有限公司 31200	代理人：	陸飛;盛志范
地址：	200433 ***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于句子級別文本特征提取方法文檔拷貝檢測系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于句子級別的文本特征提取方法，選取一定數量的具有最低逆向文件頻率的常見詞匯作為先行詞，以抽取改進的Shingle特征，用以表示整個句子；?設一個Low-IDF-Sig特征s_i表示為一條緊跟在一個先行詞a_i后的具有固定長度c_i的詞鏈，該詞鏈的取詞間隔為一個固定值d_j?；使用標記a_i(d_i,c_i)表示一個先行詞為a_i，詞鏈長度為c_i，取詞間隔為d_i的Low-IDF-Sig特征s_i；具體步驟如下：

（1）給定先行詞集合A，詞鏈長度c，取詞間隔d；

（2）遍歷句子中的每個詞，若詞匯出現在先行詞集合中，詞匯當前位置為p，則提取p+0*d,?p+1*d,?p+2*d…p+c*d處的詞形成一個特征；

（3）對句子中的每個詞重復步驟（2），直到沒有更多詞匯，從而將句子轉換為一個有權特征集合。

2.一種基于句子級別的文檔拷貝檢測系統，其特征在于由文檔讀取子系統、斷句子系統、特征提取子系統、拷貝檢測子系統、序列匹配子系統組成；其中：

所述文檔讀取子系統，以文檔集合作為輸入，單個的文檔為輸出，用于讀取文檔集合中的文檔，并將單個的文檔輸出到后續的斷句子系統中；

所述斷句子系統，以文檔讀取子系統輸出的單個文檔為輸入，單個的句子為輸出，用于讀取文檔并斷句后輸出文本表示的句子；

所述特征提取子系統，以斷句子系統輸出的單個句子為輸入，句子的特征向量表示以及倒排索引為輸出，用于將句子文本轉換為特征向量表示，并加入倒排索引中；

所述拷貝檢測子系統，以特征提取子系統輸出的句子的特征向量表示以及倒排索引為輸入，互為拷貝的句子對集合為輸出，用于根據倒排索引找出互為拷貝的句子對；

所述序列匹配子系統，以拷貝檢測子系統輸出的互為拷貝的句子對集合為輸入，互為拷貝的段落序列集合為輸出，用于將句子對集合按照文檔組織起來，并找出互為拷貝的序列；

文檔拷貝檢測系統處理流程為：首先由文檔讀取子系統從文檔集合中獲取一個文檔，由斷句子系統將文檔轉換為句子的集合，然后由特征提取子系統將句子轉換為特征向量，并加入倒排索引中；當對所有文檔都進行過上述處理后，由拷貝檢測子系統分析倒排索引和句子向量集合，找出互為拷貝的句子對；最后由序列匹配子系統將句子對按照文檔整理，匹配文檔中互為拷貝的序列，并產生最后的結果。

3.根據權利要求2所述的基于句子級別的文檔拷貝檢測系統，其特征在于所述拷貝檢測子系統使用如下相似度計算方法：假設兩個句子經過轉換，變為兩個由Low-IDF-Sig特征組成的集合：A和B，它們間的相似度定義為：

????????

其中，freqA(sj)表示特征sj在帶權重集合A中出現的頻率，同樣，freqB(sj)表示特征sj在帶權重集合B中出現的頻率。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于復旦大學，未經復旦大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201210000918.7/1.html，轉載請聲明來源鉆瓜專利網。