[發明專利]一種基于標簽的社交網絡用戶興趣挖掘方法與裝置無效
| 申請號: | 201210249582.8 | 申請日: | 2012-07-18 |
| 公開(公告)號: | CN102867016A | 公開(公告)日: | 2013-01-09 |
| 發明(設計)人: | 薛曄偉;馬振江;伍星 | 申請(專利權)人: | 北京開心人信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 郭智 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標簽 社交 網絡 用戶 興趣 挖掘 方法 裝置 | ||
技術領域
本發明涉及互聯網信息挖掘領域,特別涉及一種基于標簽的社交網絡用戶興趣挖掘方法與裝置。
背景技術
現有的用戶興趣獲取和應用的方法主要分為如下幾個不同的體系:
1、關聯體系:這個體系的方法利用用戶和實體之間產生的直接關聯,采用協同過濾等從眾方法,將用戶可能感興趣、但尚未發生關聯的實體和該用戶關聯起來。
優點:簡單明了,對從眾性的用戶和實體往往能夠取得不錯的判斷結果;
缺點:不能對小眾用戶的興趣進行判斷;不能直接定義用戶的興趣,只能針對具體實體判斷用戶的喜好程度。
2、實體標簽體系:這個體系采用的技術手段是在實體出現的位置提供輸入,引導用戶對實體進行簡短描述,將這些簡短描述語收集并作為該實體的標簽。
優點:代價小,僅僅需要提供功能,標簽由用戶生成;
缺點:標簽無法規范,利用難度大;用戶大都不愿填寫;對于單個實體,收集的標簽數量少,描述也不完整;無法直接對用戶興趣進行描述。
3、分類體系:這個體系設定一些用戶興趣的類目,在用戶注冊或首次使用產品的時候,要求用戶從中選擇幾個感興趣的類目,以此作為用戶興趣的判定;
優點:用戶抵觸小,能夠直接定義用戶興趣;
缺點:必須事先對實體同樣做分類映射,如果實體數量較多,會面臨映射代價大和精度低的問題;靈活性不夠,不能正確反映用戶興趣的變化;類目數量受到限制,不能對用戶興趣進行稍細致的描述。
發明內容
本發明的目的是針對上述問題,提出一種以標簽為基礎的用戶興趣挖掘方法及裝置,在解決現有技術缺陷的基礎上能夠最大限度的挖掘社交網絡中用戶的興趣。
為實現上述目的,本發明提供了一種基于標簽的社交網絡用戶興趣挖掘方法,包括:
收集用戶在社交網絡上的數據;
根據數據生成標簽興趣列;所述標簽興趣列為所述數據中所有標簽及標簽對應地權重的集合;
根據標簽興趣列進行用戶興趣信息推薦,實現了社交網絡用戶興趣挖掘。
可選的,本發明一實施例中,所述根據標簽興趣列進行用戶興趣信息推薦包括:
所述標簽興趣列向量化得到標簽興趣向量;對標簽興趣向量進行抽象,獲取抽象結果;根據抽象結果進行用戶興趣信息推薦。
可選的,本發明一實施例中,所述對標簽興趣向量進行抽象包括:
按照標簽的屬性為抽象類目、抽象類目是各種類目的集合這種類目和標簽的屬性映射關系將標簽興趣向量分為低級別抽象類目和高級別抽象類目,將標簽興趣向量中的標簽賦給相應的類目中,合并相應抽象類目中的標簽和相應權重,得到低級類目興趣向量和高級類目興趣向量;根據應用場景的具體需要,按照低級類目興趣向量、高級類目興趣向量和標簽為社交網絡用戶提供相應的興趣信息,實現社交網絡用戶興趣挖掘。
可選的,本發明一實施例中,所述數據包括:社交網絡上用戶生成的文字性數據和社交網絡上用戶與文字性內容的關聯關系數據。
可選的,本發明一實施例中,所述根據數據生成標簽興趣列包括:
獲取所述社交網絡上用戶生成的文字性數據包含的所有標簽和每個標簽所對應地權重;將所述社交網絡上用戶與文字性內容的關聯關系數據轉換為用戶-關系鏈形式;合并用戶在所有內容上的標簽得到用戶的標簽興趣列。
可選的,本發明一實施例中,該方法還包括:對收集到的用戶在社交網絡上的所有數據進行清洗。
可選的,本發明一實施例中,所述清洗包括:過濾廣告內容、對長篇文字僅取前500個字作為分析對象以及采用標簽主動匹配內容的方法過濾不良信息。
可選的,本發明一實施例中,所述社交網絡上用戶生成的文字性數據分為標題和內容;采取字符串匹配算法獲取所述社交網絡上用戶生成的文字性數據中包含的所有標簽,根據每個標簽的出現次數作為該內容在該標簽上的權重。
可選的,本發明一實施例中,所述標題和內容均包含同一標簽中,該標簽的權重為其在標題所得權重與在內容所得權重之和。
可選的,本發明一實施例中,所述社交網絡上用戶生成的文字性數據表示為{<Ti,TFi>,<Tj,TFj>,…,<Tk,TFk>};其中,Ti代表某個標簽,TFi代表標簽Ti在內容中的權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京開心人信息技術有限公司,未經北京開心人信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210249582.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多陣列自適應天線
- 下一篇:一種高速運行的抗高溫組合多頻天線





