[發明專利]一種自動實時新聞推薦方法在審
| 申請號: | 201710345567.6 | 申請日: | 2017-05-17 |
| 公開(公告)號: | CN107025310A | 公開(公告)日: | 2017-08-08 |
| 發明(設計)人: | 龐景秋;齊景春;崔放;于希豐;劉楊;張少卓;毛成岳 | 申請(專利權)人: | 長春嘉誠信息技術股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 長春吉大專利代理有限責任公司22201 | 代理人: | 杜森垚 |
| 地址: | 130103 吉林省長*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 實時 新聞 推薦 方法 | ||
技術領域
本發明涉及一種新聞的推薦方法,其用于新聞推薦領域,特別涉及到一種自動實時新聞推薦方法。
背景技術
互聯網的出現和普及給用戶帶來了大量的信息,滿足了用戶在信息時代對信息的需求。但隨著網絡的迅速發展而帶來的網上信息量的大幅增長,使得用戶在面對大量信息時,無法從中獲得對自己真正有用的那部分信息,對信息的使用效率反而降低了,這就是所謂的信息超載(information overload)問題。
解決信息超載的問題有以搜索引擎為代表的信息檢索系統,但是使用搜索引擎的不同用戶在使用同一個關鍵字搜索信息時,得到的結果是相同的,可見搜索引擎滿足不了用戶對信息的多元化和個性化需求。而個性化推薦系統,它是根據用戶的信息需求、興趣等,將用戶感興趣的信息推送給用戶。和搜索引擎相比,個性化推薦系統通過研究用戶的興趣偏好,進行個性化計算,發現用戶的興趣點,進而推送給用戶感興趣的信息。而個性化新聞推薦系統就是個性化推薦系統在新聞領域的最典型的應用。
新聞推薦系統中比較常用的推薦算法有三種:基于內容的推薦算法、協同過濾推薦算法和混合推薦算法。
基于內容的推薦算法是根據用戶過去所選擇的對象,找出和它相關屬性相似度最高的對象,即認為該對象是最符合用戶偏好的對象,并將其推薦給用戶。這類算法通常來源于對信息進行檢索,運用特征提取的方法,得出用戶已經評價項目的特征信息,根據這些特征信息分析出用戶的喜好,進而考察用戶的興趣與待推薦項目的匹配程度。但運用該方法的缺點是項目的特征抽取比較困難,特別是對于一些非結構化的信息更加難以處理。同時推薦內容受限,很難挖掘用戶潛在興趣。
協同過濾算法的基本原理是根據用戶對項目的反饋信息,找出與該用戶相類似的用戶或者找到與該項目相類似的項目,進而進行合理推薦。協同個性化推薦的優點是可以發現用戶潛在的興趣點,缺點是不能推薦那些從來沒有被同類中其他用戶訪問過的信息,難以解決冷啟動問題、數據稀疏性問題及可擴展性問題。
混合推薦是將基于內容的推薦和協同推薦結合起來的一種推薦方法。既比較信息資源與用戶興趣模型的相似度,又尋找具有相近興趣的用戶類,可以更好的進行個性化推薦。但需具體應用場景具體分析。
發明內容
本發明提供一種自動實時新聞推薦方法,以解決上述現有技術的缺陷,本發明能對新聞進行自動、實時的個性化推薦,無論是新用戶和已注冊用戶,都具有很強的適應性和穩定性。
一種自動實時新聞推薦方法,其特征在于,包括以下步驟:
步驟一、新聞抓取:通過爬蟲工具,抓取新聞網頁地址,下載新聞標題及新聞內容,并將新聞存儲到數據庫新聞表中;
步驟二、新聞預處理:對新聞進行分詞處理,只保留名詞;去掉無效新聞,并將有效新聞的分詞結果存儲到數據庫新聞表中;
步驟三、新聞模型訓練:采用基于Gibbs Sampling的LDA算法進行主題模型的訓練,建立主題模型;
步驟四、新聞特征建模:進行新聞特征提取,建立新聞特征模型,新聞特征模型由新聞標簽模型Nt和新聞主題特征模型Nl組成,即N={Nt,Nl};
步驟五、用戶特征初步建模:進行用戶特征提取,建立用戶畫像,對用戶特征進行初步建模;
步驟六、用戶特征二次建模:基于步驟五用戶特征初步建模結果,對用戶特征進行二次精確建模,建立用戶興趣模型U,用戶興趣模型U由用戶興趣關鍵詞模型Ut和用戶興趣主題特征模型Ul組成,即U={Ut,Ul};
步驟七、相似度計算:基于上述步驟四至步驟六提取的新聞特征和用戶興趣,進行新聞特征模型和用戶興趣模型的融合匹配度計算;
步驟八、新聞推薦。
本發明所述的一種自動實時新聞推薦方法,步驟三新聞模型訓練包括以下過程:
采用基于Gibbs Sampling的LDA算法進行主題模型的訓練:先設定主題個數K,建立主題模型,即每個新聞文本在各個主題上對應的主題特征向量Tl=(w1,w2,w3,…,wk);
主題模型建立后,對建立的主題模型使用Perplexity值進行持續優化,Perplexity值計算公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長春嘉誠信息技術股份有限公司,未經長春嘉誠信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710345567.6/2.html,轉載請聲明來源鉆瓜專利網。





