[發明專利]確定文獻相似度的方法和裝置有效
| 申請號: | 202011336796.X | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN112417154B | 公開(公告)日: | 2023-01-24 |
| 發明(設計)人: | 秦泓杰 | 申請(專利權)人: | 上海創米數聯智能科技發展股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/335 |
| 代理公司: | 北京市一法律師事務所 11654 | 代理人: | 劉榮娟 |
| 地址: | 200241 上海市閔行*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 文獻 相似 方法 裝置 | ||
本申請公開了確定文獻相似度的方法和裝置。該方法包括:獲取多個目標文獻;對每個目標文獻進行預處理以生成基礎文本數據;基于所述基礎文本數據生成每個目標文獻的文獻向量;對所有目標文獻的文獻向量進行聚類;以及確定每個聚類中的每個文獻向量與其他文獻向量的相似度。該方法和裝置采用無監督模型,將詞及文獻分步映射到同一語義空間,通過聚類分析,縮小了相似文獻的備選集,從而同時提高了性能及準確度。
技術領域
本公開涉及大數據信息處理技術領域,尤其涉及確定文獻相似度的方法和裝置。
背景技術
隨著科學技術的飛速發展,電子、機械、計算機、生化、醫藥等領域的研究成果發布周期越來越短,各學科文獻的數目極速增長。通過查閱相關科技文獻,可以了解當前研究領域內的主要研究成果、同行研究動態、該領域內已解決的問題及有待于改進和完善的問題等,從而進一步明確研究課題的科學價值,找準研究的真正起點。
文獻數量的激增,一方面表明文獻信息資源的豐富,但同時也產生了″文獻信息污染″,給人們選擇、利用文獻造成了障礙。因此,面對日益增長的文獻資源,如何快捷準確地獲取感興趣的文獻,已成為人們關注的熱點問題。故而,搜索和推薦相似文獻,在學術上起著舉足輕重的作用。
因此,需要一種確定文獻相似度的方法和裝置。
發明內容
本公開的目的在于提出一種基于無監督模型確定文獻相似度的方法和裝置,以解決現有在計算文獻相似度時,方法復雜、數據龐大、性能低下、準確度低的問題。
為達上述目的,本公開的一個方面提供了一種確定文獻相似度的方法,其包括:獲取多個目標文獻;對每個目標文獻進行預處理以生成基礎文本數據;基于所述基礎文本數據生成每個目標文獻的文獻向量;對所有目標文獻的文獻向量進行聚類;以及確定每個聚類中的每個文獻向量與其他文獻向量的相似度。
可選地,基于所述基礎文本數據生成每個目標文獻的文獻向量包括:基于所述基礎文本數據生成詞向量文本數據和文獻向量文本數據;基于所述詞向量文本數據,通過詞向量模型生成詞向量;以及基于所述文獻向量文本數據和所述詞向量,通過文獻向量模型生成每個目標文獻的文獻向量。
可選地,所述基礎文本數據包括以下中的至少一個:文獻標題、文獻摘要、文獻關鍵字、文獻正文、文獻分類號和文獻作者。
可選地,所述詞向量文本數據包括文獻標題和文獻摘要,所述文獻向量文本數據包括文獻標題和文獻關鍵字。
可選地,所述詞向量模型為連續詞袋模型,所述文獻向量模型為跳字模型。
本公開的另一個方面提供了一種確定相似文獻的裝置,其包括:文獻獲取單元,被配置為獲取多個目標文獻;預處理單元,被配置為對每個目標文獻進行預處理以生成基礎文本數據;文獻向量生成單元,被配置為基于所述基礎文本數據生成每個目標文獻的文獻向量;聚類單元,被配置為對所有目標文獻的文獻向量進行聚類;以及相似度確定單元,被配置為確定每個聚類中的每個文獻向量與其他文獻向量的相似度。
可選地,基于所述基礎文本數據生成每個目標文獻的文獻向量包括:基于所述基礎文本數據生成詞向量文本數據和文獻向量文本數據;基于所述詞向量文本數據,通過詞向量模型生成詞向量;以及基于所述文獻向量文本數據和所述詞向量,通過文獻向量模型生成每個目標文獻的文獻向量。
可選地,所述基礎文本數據包括以下中的至少一個:文獻標題、文獻摘要、文獻關鍵字、文獻正文、文獻分類號和文獻作者。
可選地,所述詞向量文本數據包括文獻標題和文獻摘要,所述文獻向量文本數據包括文獻標題和文獻關鍵字。
可選地,所述詞向量模型為連續詞袋模型,所述文獻向量模型為跳字模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海創米數聯智能科技發展股份有限公司,未經上海創米數聯智能科技發展股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011336796.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息推薦方法和裝置
- 下一篇:一種水性涂料用色漿配方及其生產工藝





