[發明專利]一種文獻推送方法及裝置在審
| 申請號: | 201811243326.1 | 申請日: | 2018-10-24 |
| 公開(公告)號: | CN109492156A | 公開(公告)日: | 2019-03-19 |
| 發明(設計)人: | 王健 | 申請(專利權)人: | 宿州元化信息科技有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 六安市新圖匠心專利代理事務所(普通合伙) 34139 | 代理人: | 陳斌 |
| 地址: | 234000 安徽省宿州市埇橋區*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 推送 個人信息 用戶特征向量 余弦相似度 精準度 預設 詞頻 逆文檔頻率 文獻數據庫 特征向量 向量構建 自身信息 排序 個性化 優化 | ||
本發明公開了一種文獻推送方法及裝置,所述方法包括:獲取用戶的個人信息,利用所述個人信息和詞頻?逆文檔頻率TF?IDF向量構建用戶特征向量,其中,所述個人信息至少包括:姓名、單位和已發表的文章;計算文獻數據庫中新文章和所述用戶特征向量的余弦相似度,獲得余弦相似度大小排序在前的預設數量篇文章;將獲得的預設數量篇文章推送給所述用戶。本發明相比現有技術具有以下優點:能夠根據用戶的自身信息個性化推送用戶感興趣的文獻,用戶針對性較強,精準度較高,且能夠通過調整用戶的特征向量優化文獻推送,進一步增加推送的精準度。
技術領域
本發明涉及信息推送技術領域,尤其涉及的是一種文獻推送方法及裝置。
背景技術
在科研人員進行學術研究的工作過程中,經常需要登錄期刊網站查詢閱讀相關文獻。各種期刊網站收錄了海量的文獻信息,使用關鍵詞搜索自己感興趣的或工作需要的文章比較麻煩,一般的期刊網站會根據用戶的操作行為如搜索歷史或點擊閱讀記錄,推薦相似文獻顯示在頁面上,但對想要追蹤關于自身研究領域的最新科研成果的用戶來說,該文獻推薦方式的用戶針對性不強,推薦精準度也不高。
發明內容
本發明的目的在于克服現有技術的不足,提供了一種文獻推送方法及裝置。
本發明是通過以下技術方案實現的:
一種文獻推送方法,所述方法包括:
獲取用戶的個人信息,利用所述個人信息和詞頻-逆文檔頻率TF-IDF向量構建用戶特征向量,其中,所述個人信息至少包括:姓名、單位和已發表的文章;
計算文獻數據庫中新文章和所述用戶特征向量的余弦相似度,獲得余弦相似度大小排序在前的預設數量篇文章;
將獲得的預設數量篇文章推送給所述用戶。
可選的,所述利用所述個人信息和詞頻-逆文檔頻率TF-IDF向量構建用戶特征向量,包括:
爬取期刊網站收集歷年文獻信息,將文獻信息中的摘要信息進行文本清洗后儲存到干凈語料庫,其中,所述干凈語料庫包含:以每篇文獻的整段摘要為單位的信息;
利用所述干凈語料庫訓練詞頻-逆文檔頻率TF-IDF向量模型,將所述用戶已發表的a篇文章的摘要信息帶入訓練好的TF-IDF向量模型,得到每篇文章摘要的TF-IDF向量,計算得到的a個文章摘要的TF-IDF向量的平均值,作為所述用戶的摘要向量;
將所述用戶已發表的a篇文章的標題信息帶入訓練好的TF-IDF向量模型,得到每篇文章標題的TF-IDF向量,計算得到的a個文章標題的TF-IDF向量的平均值,作為所述用戶的標題向量;
根據以下公式,計算用戶特征向量:
其中,所述w為可調節參數,為歸一化函數。
可選的,所述計算文獻數據庫中新文章和所述用戶特征向量的余弦相似度,包括:
爬取期刊網站文獻數據庫中的若干篇最新文章,將所述新文章的摘要信息代入訓練好的TF-IDF向量模型,計算每篇文章摘要中每個單詞的詞頻和逆文檔頻率,得到每篇新文章的TF-IDF向量;
計算所述用戶特征向量和新文章的TF-IDF向量之間的余弦相似度;
所述獲得余弦相似度大小排序在前的預設數量篇文章,包括:
按照新文章對應的余弦相似度大小排序,得到余弦相似度大小排序最前的10或20篇新文章。
可選的,所述將獲得的預設數量篇文章推送給所述用戶,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于宿州元化信息科技有限公司,未經宿州元化信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811243326.1/2.html,轉載請聲明來源鉆瓜專利網。





