[發(fā)明專利]一種文獻推送方法及裝置在審
| 申請?zhí)枺?/td> | 201811243326.1 | 申請日: | 2018-10-24 |
| 公開(公告)號: | CN109492156A | 公開(公告)日: | 2019-03-19 |
| 發(fā)明(設(shè)計)人: | 王健 | 申請(專利權(quán))人: | 宿州元化信息科技有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 六安市新圖匠心專利代理事務(wù)所(普通合伙) 34139 | 代理人: | 陳斌 |
| 地址: | 234000 安徽省宿州市埇橋區(qū)*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 推送 個人信息 用戶特征向量 余弦相似度 精準度 預設(shè) 詞頻 逆文檔頻率 文獻數(shù)據(jù)庫 特征向量 向量構(gòu)建 自身信息 排序 個性化 優(yōu)化 | ||
1.一種文獻推送方法,其特征在于,所述方法包括:
獲取用戶的個人信息,利用所述個人信息和詞頻-逆文檔頻率TF-IDF向量構(gòu)建用戶特征向量,其中,所述個人信息至少包括:姓名、單位和已發(fā)表的文章;
計算文獻數(shù)據(jù)庫中新文章和所述用戶特征向量的余弦相似度,獲得余弦相似度大小排序在前的預設(shè)數(shù)量篇文章;
將獲得的預設(shè)數(shù)量篇文章推送給所述用戶。
2.根據(jù)權(quán)利要求1所述的文獻推送方法,其特征在于,所述利用所述個人信息和詞頻-逆文檔頻率TF-IDF向量構(gòu)建用戶特征向量,包括:
爬取期刊網(wǎng)站收集歷年文獻信息,將文獻信息中的摘要信息進行文本清洗后儲存到干凈語料庫,其中,所述干凈語料庫包含:以每篇文獻的整段摘要為單位的信息;
利用所述干凈語料庫訓練詞頻-逆文檔頻率TF-IDF向量模型,將所述用戶已發(fā)表的a篇文章的摘要信息帶入訓練好的TF-IDF向量模型,得到每篇文章摘要的TF-IDF向量,計算得到的a個文章摘要的TF-IDF向量的平均值,作為所述用戶的摘要向量;
將所述用戶已發(fā)表的a篇文章的標題信息帶入訓練好的TF-IDF向量模型,得到每篇文章標題的TF-IDF向量,計算得到的a個文章標題的TF-IDF向量的平均值,作為所述用戶的標題向量;
根據(jù)以下公式,計算用戶特征向量:
其中,所述w為可調(diào)節(jié)參數(shù),為歸一化函數(shù)。
3.根據(jù)權(quán)利要求2所述的文獻推送方法,其特征在于,所述計算文獻數(shù)據(jù)庫中新文章和所述用戶特征向量的余弦相似度,包括:
爬取期刊網(wǎng)站文獻數(shù)據(jù)庫中的若干篇最新文章,將所述新文章的摘要信息代入訓練好的TF-IDF向量模型,計算每篇文章摘要中每個單詞的詞頻和逆文檔頻率,得到每篇新文章的TF-IDF向量;
計算所述用戶特征向量和新文章的TF-IDF向量之間的余弦相似度;
所述獲得余弦相似度大小排序在前的預設(shè)數(shù)量篇文章,包括:
按照新文章對應(yīng)的余弦相似度大小排序,得到余弦相似度大小排序最前的10或20篇新文章。
4.根據(jù)權(quán)利要求3所述的文獻推送方法,其特征在于,所述將獲得的預設(shè)數(shù)量篇文章推送給所述用戶,包括:
利用自動發(fā)送郵件程序?qū)⑺?0篇或20篇新文章的內(nèi)容發(fā)送給用戶,其中,所述內(nèi)容至少包括:文章的標題、作者和摘要,其中,文章的標題設(shè)置為超鏈接標題。
5.根據(jù)權(quán)利要求1-4任一項所述的文獻推送方法,其特征在于,所述方法還包括:
根據(jù)所述用戶的反饋信息調(diào)整用戶特征向量。
6.根據(jù)權(quán)利要求5所述的文獻推送方法,其特征在于,所述根據(jù)所述用戶的反饋信息調(diào)整用戶特征向量,包括:
記錄用戶點擊超鏈接標題所生成的操作日志,從所述操作日志中獲取用戶點擊的文章信息,根據(jù)以下公式計算調(diào)整后的用戶特征向量:
其中,所述為更新的權(quán)重因子且取值范圍為[0, 1],所述為用戶點擊的新文章的TF-IDF向量的平均值,m為用戶點擊的新文章的數(shù)量,所述表示用戶未點擊的新文章的TF-IDF向量的平均值, n為用戶未點擊的新文章的數(shù)量。
7.一種文獻推送裝置,其特征在于,所述裝置包括:
構(gòu)建模塊,用于獲取用戶的個人信息,利用所述個人信息和詞頻-逆文檔頻率TF-IDF向量構(gòu)建用戶特征向量,其中,所述個人信息至少包括:姓名、單位和已發(fā)表的文章;
獲得模塊,用于計算文獻數(shù)據(jù)庫中新文章和所述用戶特征向量的余弦相似度,獲得余弦相似度大小排序在前的預設(shè)數(shù)量篇文章;
推送模塊,用于將獲得的預設(shè)數(shù)量篇文章推送給所述用戶。
8.根據(jù)權(quán)利要求7所述的文獻推送裝置,其特征在于,所述裝置還包括:
調(diào)整模塊,用于根據(jù)所述用戶的反饋信息調(diào)整用戶特征向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于宿州元化信息科技有限公司,未經(jīng)宿州元化信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811243326.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





