[發明專利]文件推薦系統及方法在審

申請號：	201310360154.7	申請日：	2013-08-19
公開（公告）號：	CN104391843A	公開（公告）日：	2015-03-04
發明（設計）人：	強振雄;林奇玲;李建緯;李宜臻	申請（專利權）人：	捷達世軟件（深圳）有限公司;鴻海精密工業股份有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	暫無信息	代理人：	暫無信息
地址：	518109 廣東省深圳市寶安區龍華街道辦***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文件推薦系統方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及文字采礦和信息挖掘技術，尤其涉及一種文件推薦系統及方法。

背景技術

借助于互聯網的快速普及，人們每天通過網絡可以瀏覽各種信息資訊。然而信息資訊日益膨脹，龐大的信息量反而會導致人們無法從過多的網頁或文件中快速篩選到符合個人需求的信息。

目前大多數的新聞門戶網站或是資訊類系統，根據用戶已經閱讀的網頁或是文件中的關鍵詞，利用關鍵詞找出該用戶的閱讀需求以推送出相關新聞或文件。該方法是分析單一用戶的閱讀行為，以關鍵詞作為推送的依據，推送的新聞或文件具有一定局限性。

發明內容

鑒于上述內容，有必要提供一種文件推薦系統及方法，可以充分利用并分析所有用戶的閱讀行為，劃分用戶群組，以群組為依據推送文件給用戶。

所述文件推薦系統，該系統包括：文本處理模塊，用于將文件解析為具有標題和正文的文字信息，并對文字信息進行斷詞和過濾斷詞結果；樣本采集模塊，用于收集所有用戶在一段時間內的閱讀行為，每個用戶作為一個采樣樣本，計算每個用戶在該時間段內的閱讀習慣和標題詞的頻數；群組劃分模塊，用于根據聚類演算法對所有樣本進行演算，將所有樣本劃分為不同群組；及文件推薦模塊，用于根據用戶所在群組，將同群組內所有用戶閱讀的文件進行相互推薦。

所述文件推薦方法，該方法包括步驟：將文件解析為具有標題和正文的文字信息，并對文字信息進行斷詞和過濾斷詞結果；收集所有用戶在一段時間內的閱讀行為，每個用戶作為一個采樣樣本，計算每個用戶在該時間段內的閱讀習慣和標題詞的頻數；根據聚類演算法對所有樣本進行演算，將所有樣本劃分為不同群組；根據用戶所在群組，將同群組內所有用戶閱讀的文件進行相互推薦。

相比于現有技術，本發明中所述文件推薦系統及方法，分析所有用戶的閱讀行為，利用聚類演算法將所有用戶劃分為不同群組且不同群組存在明顯差異，相同群組內的所有用戶閱讀的文件進行互相推薦。

附圖說明

圖1是本發明所述文件推薦系統的較佳實施例的運行環境圖。

圖2是本發明所述文件推薦系統的較佳實施例的功能模塊圖。

圖3是本發明所述文件推薦方法的方法流程圖。

圖4是本發明中文件斷詞表的示意圖。

圖5是對所有用戶一段時間內的閱讀行為采樣后的樣本示意圖。

主要元件符號說明