[發明專利]一種相似文章的檢索方法和系統在審
| 申請號: | 202011561164.3 | 申請日: | 2020-12-25 |
| 公開(公告)號: | CN112527971A | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 趙國強;史云飛 | 申請(專利權)人: | 華戎信息產業有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/242;G06F40/30;G06K9/62 |
| 代理公司: | 濟南誠智商標專利事務所有限公司 37105 | 代理人: | 朱曉熹 |
| 地址: | 250000 山東省濟南市高新區*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 相似 文章 檢索 方法 系統 | ||
1.一種相似文章的檢索方法,其特征在于,包括:
根據文章中的詞頻所在范圍,提取文章的關鍵詞;
對所述關鍵詞進行word2vec轉換,將所述關鍵詞轉換為詞向量;
根據所述詞向量的語義,對所述文章的所有詞向量進行聚類操作;
使用TF-IDF算法對聚類操作后的所述詞向量進行轉換,得到與所述詞向量對應的TF-IDF向量;
使用所述TF-IDF向量進行余弦相似度的比較,檢索與所述文章內容相似的文章。
2.根據權利要求1所述的相似文章的檢索方法,其特征在于,所述對關鍵詞進行word2vec轉換,將所述關鍵詞轉換為詞向量的步驟,包括:
使用預設維度對所述關鍵詞前后文的單詞進行編碼,得到與所述關鍵詞對應的隱藏層向量;
使用預設矩陣對所述隱藏層向量進行向量轉換,得到預設維度的所述詞向量。
3.根據權利要求1所述的相似文章的檢索方法,其特征在于,所述根據詞向量的語義,對所述文章的所有詞向量進行聚類操作的步驟,包括:
選取字典樹,設置所述字典樹的高度以及每個節點的最大數目;
按照所述字典樹的高度和所述節點的最大數目,對所述詞向量進行聚類。
4.根據權利要求1所述的相似文章的檢索方法,其特征在于,所述使用TF-IDF算法對聚類操作后的所述詞向量進行轉換,得到與所述詞向量對應的TF-IDF向量的步驟,包括:
根據所述詞向量在所述文章中出現的次數,以及所述文章中所有詞向量出現次數的總和,計算所述詞向量的詞頻;
根據所述TF-IDF語料庫中的文件總數,以及包含有所述詞向量的文件數量,計算所述詞向量的逆向文件頻率;
計算所述詞向量的詞頻與逆向文件頻率的乘積,得到所述TF-IDF向量。
5.根據權利要求1所述的相似文章的檢索方法,其特征在于,所述使用TF-IDF向量進行余弦相似度的比較的步驟,包括:
計算檢索到的文章的所述TF-IDF向量;
使用TF-IDF向量之間的向量內積,計算得到所述余弦相似度;
判斷所述余弦相似度是否大于或等于預設閾值;
若判定所述余弦相似度大于或等于所述預設閾值,則確定檢索到與所述文章內容相似的文章。
6.一種相似文章的檢索系統,其特征在于,包括:
關鍵詞提取模塊,用于根據文章中的詞頻所在范圍,提取文章的關鍵詞;
關鍵詞轉換模塊,用于對所述關鍵詞進行word2vec轉換,將所述關鍵詞轉換為詞向量;
聚類模塊,用于根據所述詞向量的語義,對所述文章的所有詞向量進行聚類操作;
詞向量轉換模塊,用于使用TF-IDF算法對聚類操作后的所述詞向量進行轉換,得到與所述詞向量對應的TF-IDF向量;
相似度比較模塊,用于使用所述TF-IDF向量進行余弦相似度的比較,檢索與所述文章內容相似的文章。
7.根據權利要求6所述的相似文章的檢索系統,其特征在于,所述關鍵詞轉換模塊,包括:
單詞編碼子模塊,用于使用預設維度對所述關鍵詞前后文的單詞進行編碼,得到與所述關鍵詞對應的隱藏層向量;
向量轉換子模塊,用于使用預設矩陣對所述隱藏層向量進行向量轉換,得到預設維度的所述詞向量。
8.根據權利要求6所述的相似文章的檢索系統,其特征在于,所述聚類模塊,包括:
字典樹設置子模塊,用于選取字典樹,設置所述字典樹的高度以及每個節點的最大數目;
詞向量聚類子模塊,用于按照所述字典樹的高度和所述節點的最大數目,對所述詞向量進行聚類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華戎信息產業有限公司,未經華戎信息產業有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011561164.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種雙磁路結構及發聲器件
- 下一篇:一種調控米粉硬度的方法和裝置





