[發明專利]基于句子級別的文本特征提取方法和文檔拷貝檢測系統無效
| 申請號: | 201210000918.7 | 申請日: | 2012-01-04 |
| 公開(公告)號: | CN102591976A | 公開(公告)日: | 2012-07-18 |
| 發明(設計)人: | 俞昊旻;張奇;黃萱菁 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/22 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;盛志范 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 句子 級別 文本 特征 提取 方法 文檔 拷貝 檢測 系統 | ||
1.一種基于句子級別的文本特征提取方法,選取一定數量的具有最低逆向文件頻率的常見詞匯作為先行詞,以抽取改進的Shingle特征,用以表示整個句子;?設一個Low-IDF-Sig特征si表示為一條緊跟在一個先行詞ai后的具有固定長度ci的詞鏈,該詞鏈的取詞間隔為一個固定值dj?;使用標記ai(di,ci)表示一個先行詞為ai,詞鏈長度為ci,取詞間隔為di的Low-IDF-Sig特征si;具體步驟如下:
(1)給定先行詞集合A,詞鏈長度c,取詞間隔d;
(2)遍歷句子中的每個詞,若詞匯出現在先行詞集合中,詞匯當前位置為p,則提取p+0*d,?p+1*d,?p+2*d…p+c*d處的詞形成一個特征;
(3)對句子中的每個詞重復步驟(2),直到沒有更多詞匯,從而將句子轉換為一個有權特征集合。
2.一種基于句子級別的文檔拷貝檢測系統,其特征在于由文檔讀取子系統、斷句子系統、特征提取子系統、拷貝檢測子系統、序列匹配子系統組成;其中:
所述文檔讀取子系統,以文檔集合作為輸入,單個的文檔為輸出,用于讀取文檔集合中的文檔,并將單個的文檔輸出到后續的斷句子系統中;
所述斷句子系統,以文檔讀取子系統輸出的單個文檔為輸入,單個的句子為輸出,用于讀取文檔并斷句后輸出文本表示的句子;
所述特征提取子系統,以斷句子系統輸出的單個句子為輸入,句子的特征向量表示以及倒排索引為輸出,用于將句子文本轉換為特征向量表示,并加入倒排索引中;
所述拷貝檢測子系統,以特征提取子系統輸出的句子的特征向量表示以及倒排索引為輸入,互為拷貝的句子對集合為輸出,用于根據倒排索引找出互為拷貝的句子對;
所述序列匹配子系統,以拷貝檢測子系統輸出的互為拷貝的句子對集合為輸入,互為拷貝的段落序列集合為輸出,用于將句子對集合按照文檔組織起來,并找出互為拷貝的序列;
文檔拷貝檢測系統處理流程為:首先由文檔讀取子系統從文檔集合中獲取一個文檔,由斷句子系統將文檔轉換為句子的集合,然后由特征提取子系統將句子轉換為特征向量,并加入倒排索引中;當對所有文檔都進行過上述處理后,由拷貝檢測子系統分析倒排索引和句子向量集合,找出互為拷貝的句子對;最后由序列匹配子系統將句子對按照文檔整理,匹配文檔中互為拷貝的序列,并產生最后的結果。
3.根據權利要求2所述的基于句子級別的文檔拷貝檢測系統,其特征在于所述拷貝檢測子系統使用如下相似度計算方法:假設兩個句子經過轉換,變為兩個由Low-IDF-Sig特征組成的集合:A和B,它們間的相似度定義為:
????????
其中,freqA(sj)表示特征sj在帶權重集合A中出現的頻率,同樣,freqB(sj)表示特征sj在帶權重集合B中出現的頻率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210000918.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種洛塞維的制備方法
- 下一篇:帶接納袋的采果刀





