[發明專利]一種獲取用戶和文檔個性化特征的方法和系統在審
| 申請號: | 201210253997.2 | 申請日: | 2012-07-17 |
| 公開(公告)號: | CN103544190A | 公開(公告)日: | 2014-01-29 |
| 發明(設計)人: | 祁勇 | 申請(專利權)人: | 祁勇 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518053 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 獲取 用戶 文檔 個性化 特征 方法 系統 | ||
技術領域
本發明涉及互聯網領域,具體來說涉及一種獲取用戶和文檔個性化特征的方法和系統。
背景技術
搜索引擎和社交網絡是互聯網上獲取信息的主要工具。這兩種工具的缺點是不能根據用戶的特征差異來進行信息的過濾和篩選。例如,不同的用戶在同一個搜索引擎中輸入相同的關鍵字,其得到的搜索結果是相同的,與哪個用戶提交的搜索查詢無關;不同的用戶在同一個社交網絡中建立相同的關系網絡,其獲得的信息也是相同的,與哪個用戶建立的關系網絡無關。
在現有搜索技術中,核心技術是排序算法,最為有效的排序算法是超鏈分析算法,例如谷歌的PageRank算法。超鏈分析算法的輸入是由網頁設計者根據其主觀意愿構建的網頁鏈接關系。盡管它充分反映了網頁設計者的個人偏好和對網頁鏈接關系的理解,但是它卻無法反映出搜索引擎的使用者——用戶的個人偏好。由于從事不同行業或具有不同愛好的用戶對同一個網頁的重要性評價通常是不同的,而PageRank等現有排序技術對每個網頁只能給出唯一的網頁排名,這是現有搜索技術的缺點。一個可行的技術解決方案是結合用戶和網頁的個性化特征來改進搜索結果,使得每個網頁的排名不僅依賴于網頁之間的鏈接關系,而且依賴于提交搜索查詢的用戶的個性化特征和被查詢網頁的個性化特征。有分析表明,借助用戶和網頁的個性化特征,能夠提高搜索引擎的查準率,減少用戶對無效信息的掃描和瀏覽。
在現有社交網絡技術中,用戶通過自己建立的關系網絡來獲取信息,例如通過關注(follow)他人和加好友等操作來獲取他人發布的信息。被關注的人和加為好友的人越多,用戶獲得的信息也越多。由于擔心有重要的或者有趣的信息被遺漏,用戶通常會在社交網絡中關注更多的人或者加入更多的好友。但是,當關系網絡中的用戶數量超過鄧巴數(Dunbar)150之后,微博和臉譜(Facebook)等社交網絡會逐漸成為對用戶進行“信息轟炸”的服務。其原因是現有社交網絡技術要求用戶必須接收其關系網絡中的所有用戶發布的所有信息,而不能按信息類別有選擇地接收這些信息,這是現有社交網絡技術的缺點。一個可行的技術解決方案是讓用戶獲得的信息不僅依賴用戶建立的關系網絡,而且依賴用戶的個性化特征和獲取的信息的個性化特征。這將有助于對社交網絡上的海量信息進行有效地過濾和篩選,提高社交網絡的信息檢索效率。為了敘述方便,我們通常把用戶在社交網絡上獲得的每條信息(如一條微博),也看作一個文檔。
要實現上述兩個技術解決方案,其必要條件是能夠獲取用戶和網頁文檔的個性化特征。但是在互聯網上獲取用戶和網頁文檔的個性化特征通常是困難的,主要有以下幾個難點。第一是個性化信息的自動獲取問題。據估算目前互聯網上有5000億個網頁和20億用戶,手工維護網頁文檔和用戶的個性化特征是不現實的。如何自動獲取用戶和網頁文檔的個性化特征是一個難題。第二是個性化信息的更新問題。隨著時間的推移,用戶的興趣愛好、工作地點、從事的行業和教育程度等個人信息會發生改變,但是要求大多數用戶實時地更新其個性化信息是困難的。第三是個性化信息的語義差異問題。在用戶設置的個性化特征中,術語不同但語義相同的個性化特征,難以對其進行有效歸類。第四是個性化信息的完備性問題。用戶在網站上提供的個人信息通常比較簡略。例如對用戶興趣愛好的描述通常是喜歡音樂、打棒球或看書等幾項內容,而要求用戶全面地描述出其感興趣的領域是困難的。
綜上所述,如何有效地獲取用戶和文檔的個性化特征,并根據所述個性化特征來提高搜索引擎的查準率以及提高社交網絡的信息檢索效率,是一個亟待解決的問題。
發明內容
鑒于上述現有技術存在的問題,本發明的目的在于提供一種獲取用戶和文檔個性化特征的方法和系統,來自動獲取用戶和文檔的個性化特征,并根據所述個性化特征來幫助用戶過濾和篩選其在互聯網上獲得的信息。
根據以上所述的目的,本發明提出了一種獲取用戶和文檔個性化特征的方法,其特征在于,
在接入互聯網的服務器中,存儲由多個用戶標識組成的用戶集U和由多個文檔標識組成的文檔集D;存儲由多個特征標識組成的特征集K;
在所述服務器中,為所述用戶集U中的至少一個用戶或者所述文檔集D中的至少一個文檔設置參數向量初始值;
在所述服務器中,多次執行如下步驟:
接收任意一個用戶m(m∈U)訪問任意一個文檔n(n∈D)的信號;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于祁勇,未經祁勇許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210253997.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電磁閥防塵裝置
- 下一篇:雙流質同步換向閥及其預熱節能裝置





