[發明專利]相似文檔的判定方法和裝置有效
| 申請號: | 201610176563.5 | 申請日: | 2016-03-24 |
| 公開(公告)號: | CN107229939B | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 于曉明;劉克松;蔡慧慧;張丹 | 申請(專利權)人: | 北大方正集團有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/36;G06F16/35;G06F16/33 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 陶敏;劉芳 |
| 地址: | 100871 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似 文檔 判定 方法 裝置 | ||
本發明提供一種相似文檔的判定方法和裝置,其中,該方法包括:對各文檔進行分詞處理,分別獲取各文檔中的各個關鍵詞;統計各文檔中的各關鍵詞在所歸屬的文檔中的詞頻,根據各文檔中各關鍵詞的詞頻,確定各文檔中的各關鍵詞的權重;根據各文檔中的各關鍵詞的權重,確定各文檔中的各句子的權重;確定各文檔中的各句子的哈希值;根據各文檔中的各句子的權重和各句子的哈希值,確定各文檔的向量空間;根據各文檔的向量空間,確定各文檔與所有文檔中的其他文檔之間的夾角余弦值;根據各文檔與所有文檔中的其他文檔之間的夾角余弦值,確定各文檔之間的相似度。較為準確的判斷各文檔是否相似,準確的判定出文檔的相似度。
技術領域
本發明涉及數據挖掘技術領域,尤其涉及一種相似文檔的判定方法和裝置。
背景技術
隨著互聯網的發展和應用,各類文檔已經被上傳至互聯網中,進行文檔信息的分享和交流,互聯網中具有巨大的文檔信息庫。用戶查看文檔的時候,經常需要找到與當前文檔相似文檔,從而查看哪些平臺或網站對文檔進行了轉載,進行文檔信息的溯源。從而需要判斷各個文檔之間的相似程度,進行文檔相似度的判定。
現有技術中,主要基于文檔中的關鍵詞,或者基于文檔中的句子進行文檔的相似度的判定;兩篇文檔中相同的關鍵詞越多,則判定兩篇文檔的相似度較高;兩篇文檔中相同的句子越多,則判定兩篇文檔的相似度較高。
然而現有技術中,歸屬于同一領域的文檔具有該領域的專業詞語,從而歸屬于同一領域的文檔中必然具有較多相同的專業詞語,基于關鍵詞判定文檔的相似度的方式,并不準確;同時,各文檔中意思相同的句子,句子的句式可能不同,例如主動語態、被動語態下句子,為意思相同的句子,但是并不是相同的句子,從而會導致基于句子判定文檔的相似度的方式,也不準確。從而現有技術中無法較為準確的判斷各文檔是否相似,無法準確的判定出文檔的相似度。
發明內容
本發明提供一種相似文檔的判定方法和裝置,用以解決現有技術中無法較為準確的判斷各文檔是否相似,無法準確的判定出文檔的相似度的問題。
本發明的一方面是提供一種相似文檔的判定方法,包括:
對各文檔進行分詞處理,分別獲取各文檔中的各個關鍵詞;
統計各文檔中的各關鍵詞在所歸屬的文檔中的詞頻,根據各文檔中各關鍵詞的詞頻,確定各文檔中的各關鍵詞的權重;
根據各文檔中的各關鍵詞的權重,確定各文檔中的各句子的權重;
確定各文檔中的各句子的哈希值;
根據各文檔中的各句子的權重和各句子的哈希值,確定各文檔的向量空間;
根據各文檔的向量空間,確定各文檔與所有文檔中的其他文檔之間的夾角余弦值;
根據各文檔與所有文檔中的其他文檔之間的夾角余弦值,確定各文檔之間的相似度。
如上所述的方法中,所述對各文檔進行分詞處理,分別獲取各文檔中的各個關鍵詞,包括:
對各文檔進行分詞處理,并對分詞處理后得到的詞進行詞性標注,以獲取各文檔中的各個關鍵詞,其中,所述關鍵詞為文檔中的名詞和動詞。
如上所述的方法中,所述統計各文檔中的各關鍵詞在所歸屬的文檔中的詞頻,根據各文檔中各關鍵詞的詞頻,確定各文檔中的各關鍵詞的權重,包括:
統計各文檔中的各關鍵詞在所歸屬的文檔中的詞頻;
確定各關鍵詞在所歸屬的文檔中的第一出現位置信息;
根據各文檔中各關鍵詞的第一出現位置信息,確定與第一出現位置信息對應的第一調整值;
根據各文檔中的各關鍵詞的第一調整值,調整各文檔中各關鍵詞的詞頻;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京北大方正電子有限公司,未經北大方正集團有限公司;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610176563.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種圖像文本的識別方法和裝置
- 下一篇:數據伴隨分析方法及裝置





