[發(fā)明專利]一種相似文章的檢索方法和系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202011561164.3 | 申請(qǐng)日: | 2020-12-25 |
| 公開(公告)號(hào): | CN112527971A | 公開(公告)日: | 2021-03-19 |
| 發(fā)明(設(shè)計(jì))人: | 趙國(guó)強(qiáng);史云飛 | 申請(qǐng)(專利權(quán))人: | 華戎信息產(chǎn)業(yè)有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/35;G06F40/242;G06F40/30;G06K9/62 |
| 代理公司: | 濟(jì)南誠(chéng)智商標(biāo)專利事務(wù)所有限公司 37105 | 代理人: | 朱曉熹 |
| 地址: | 250000 山東省濟(jì)南市高新區(qū)*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 相似 文章 檢索 方法 系統(tǒng) | ||
本發(fā)明公開一種相似文章的檢索方法和系統(tǒng),其中,該相似文章的檢索方法包括:根據(jù)文章中的詞頻所在范圍,提取文章的關(guān)鍵詞;對(duì)關(guān)鍵詞進(jìn)行word2vec轉(zhuǎn)換,將關(guān)鍵詞轉(zhuǎn)換為詞向量;根據(jù)詞向量的語(yǔ)義,對(duì)文章的所有詞向量進(jìn)行聚類操作;使用TF?IDF算法對(duì)聚類操作后的詞向量進(jìn)行轉(zhuǎn)換,得到與詞向量對(duì)應(yīng)的TF?IDF向量;使用TF?IDF向量進(jìn)行余弦相似度的比較,檢索與文章內(nèi)容相似的文章。本發(fā)明的技術(shù)方案能夠解決現(xiàn)有技術(shù)中新聞分類準(zhǔn)確率低的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及文章檢索技術(shù)領(lǐng)域,具體為一種相似文章的檢索方法和系統(tǒng)。
背景技術(shù)
在文章檢索領(lǐng)域,例如論文查重,需要比較兩篇甚至多篇文章的相似度。這樣就需要做到對(duì)文章內(nèi)容語(yǔ)義進(jìn)行分析和對(duì)比,從而找出相似的文章。
現(xiàn)有的相似文章的檢索領(lǐng)域,通常使用SIFT(Scale Invariant FeatureTransform,尺度不變特征變換)特征聚類的方式進(jìn)行圖像的檢測(cè)。SIFT特征對(duì)圖像旋轉(zhuǎn)、尺度縮放和亮度變化等均保持不變性,是一種穩(wěn)定的局部特征。在文章檢索領(lǐng)域,使用SIFT特征聚類的圖像檢索方式,需要針對(duì)包含文章內(nèi)容的圖像,搜索所有尺度空間上的圖像,通過高斯微分函數(shù)識(shí)別潛在的對(duì)尺度和選擇不變的興趣點(diǎn)。然后進(jìn)行特征點(diǎn)的定位,在每個(gè)候選位置上,通過一個(gè)擬合精細(xì)模型確定位置尺度,其中,關(guān)鍵點(diǎn)的選取依據(jù)他們的穩(wěn)定程度。再次基于圖像局部的梯度方向分配給每個(gè)關(guān)鍵點(diǎn)位置一個(gè)或多個(gè)方向,后續(xù)的所有操作俊是對(duì)關(guān)鍵點(diǎn)的方向、尺度和位置進(jìn)行變換,從而提供這些特征的不變性。最后進(jìn)行特征點(diǎn)的描述,即在每個(gè)特征點(diǎn)周圍的鄰域內(nèi),在選定的尺度上測(cè)量圖像的局部梯度,這些梯度將被變換為一種表示,允許比較大的局部形狀的變形和光照變換。在選取得到SIFT特征后,通過字典樹對(duì)所有SIFT特征進(jìn)行特征聚類,從而根據(jù)聚類后的特征比較兩篇或多篇文章的相似性。
然而,上述使用SIFT特征聚類的方式檢索相似文章的方式,由于不考慮文章的內(nèi)容含義,僅僅針對(duì)圖像特征進(jìn)行聚類,這樣就導(dǎo)致相似文章的識(shí)別準(zhǔn)確度較差。
發(fā)明內(nèi)容
本發(fā)明提供一種相似文章的檢索方法和系統(tǒng),旨在解決現(xiàn)有技術(shù)中對(duì)相似文章的識(shí)別準(zhǔn)確度較差的問題。
為解決上述問題,本發(fā)明提供了一種相似文章的檢索方法,包括:
根據(jù)文章中的詞頻所在范圍,提取文章的關(guān)鍵詞;
對(duì)關(guān)鍵詞進(jìn)行word2vec轉(zhuǎn)換,將關(guān)鍵詞轉(zhuǎn)換為詞向量;
根據(jù)詞向量的語(yǔ)義,對(duì)文章的所有詞向量進(jìn)行聚類操作;
使用TF-IDF算法對(duì)聚類操作后的詞向量進(jìn)行轉(zhuǎn)換,得到與詞向量對(duì)應(yīng)的TF-IDF向量;
使用TF-IDF向量進(jìn)行余弦相似度的比較,檢索與文章內(nèi)容相似的文章。
優(yōu)選地,上述對(duì)關(guān)鍵詞進(jìn)行word2vec轉(zhuǎn)換,將關(guān)鍵詞轉(zhuǎn)換為詞向量的步驟,包括:
使用預(yù)設(shè)維度對(duì)關(guān)鍵詞前后文的單詞進(jìn)行編碼,得到與關(guān)鍵詞對(duì)應(yīng)的隱藏層向量;
使用預(yù)設(shè)矩陣對(duì)隱藏層向量進(jìn)行向量轉(zhuǎn)換,得到預(yù)設(shè)維度的詞向量。
優(yōu)選地,上述根據(jù)詞向量的語(yǔ)義,對(duì)文章的所有詞向量進(jìn)行聚類操作的步驟,包括:
選取字典樹,設(shè)置字典樹的高度以及每個(gè)節(jié)點(diǎn)的最大數(shù)目;
按照字典樹的高度和節(jié)點(diǎn)的最大數(shù)目,對(duì)詞向量進(jìn)行聚類。
優(yōu)選地,上述使用TF-IDF算法對(duì)聚類操作后的詞向量進(jìn)行轉(zhuǎn)換,得到與詞向量對(duì)應(yīng)的TF-IDF向量的步驟,包括:
根據(jù)詞向量在文章中出現(xiàn)的次數(shù),以及文章中所有詞向量出現(xiàn)次數(shù)的總和,計(jì)算詞向量的詞頻;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華戎信息產(chǎn)業(yè)有限公司,未經(jīng)華戎信息產(chǎn)業(yè)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011561164.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 相似圖像提取裝置、相似圖像提取方法以及相似圖像提取程序
- 一種鋼結(jié)構(gòu)火災(zāi)反應(yīng)分析方法
- 相似度計(jì)算裝置、相似度計(jì)算方法以及相似度計(jì)算程序
- 一種蛋白質(zhì)相似度及相似蛋白質(zhì)的確定方法和系統(tǒng)
- 一種獲取相似語(yǔ)句的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種圖像搜索方法、裝置和存儲(chǔ)介質(zhì)
- 基于相似壽命模型和相似壽命的復(fù)雜產(chǎn)品可靠性評(píng)定方法
- 獲取機(jī)構(gòu)技術(shù)相似性的方法及裝置
- 口罩(相似)
- 臺(tái)燈(相似)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





