[發(fā)明專利]一種基于微博的廣告推薦方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310608335.7 | 申請日: | 2013-11-26 |
| 公開(公告)號: | CN103617230B | 公開(公告)日: | 2017-02-15 |
| 發(fā)明(設(shè)計(jì))人: | 章昉;劉明君;趙中英 | 申請(專利權(quán))人: | 中國科學(xué)院深圳先進(jìn)技術(shù)研究院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/02 |
| 代理公司: | 深圳中一專利商標(biāo)事務(wù)所44237 | 代理人: | 張全文 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 廣告 推薦 方法 系統(tǒng) | ||
1.一種基于微博的廣告推薦方法,其特征在于,所述方法包括下述步驟:
讀取用戶的微博數(shù)據(jù);
初始化讀取的微博數(shù)據(jù),以獲得微博文本詞項(xiàng)集合,所述初始化讀取的微博數(shù)據(jù)包括去除讀取的微博數(shù)據(jù)中的特殊符號、非中文字符、分詞;
刪除所述微博文本詞項(xiàng)集合的停用詞,以獲得微博文本原始特征詞項(xiàng)集合;
將所述微博文本原始特征詞項(xiàng)集合與預(yù)先生成的特征詞項(xiàng)字典進(jìn)行映射,判斷所述微博文本原始特征詞項(xiàng)集合中的詞項(xiàng)是否出現(xiàn)在所述預(yù)先生成的特征詞項(xiàng)字典中,并計(jì)算出現(xiàn)在所述預(yù)先生成的特征詞項(xiàng)字典中的所述微博文本原始特征詞項(xiàng)集合中的詞項(xiàng)的詞頻-逆向文件頻率tf-idf值,以作為所述出現(xiàn)在所述預(yù)先生成的特征詞項(xiàng)字典中的所述微博文本原始特征詞項(xiàng)集合中的詞項(xiàng)在微博的特征值;
判斷所述預(yù)先生成的特征詞項(xiàng)字典的詞項(xiàng)是否出現(xiàn)在所述微博文本原始特征詞項(xiàng)集合中,并將沒有出現(xiàn)在所述微博文本原始特征詞項(xiàng)集合中的所述預(yù)先生成的特征詞項(xiàng)字典的詞項(xiàng)的特征值標(biāo)記為0;
使用預(yù)先得到的分類模型將用戶的微博數(shù)據(jù)自動分類到預(yù)先劃分的類別中;
以自動分類的結(jié)果為依據(jù),向讀取微博數(shù)據(jù)的用戶推薦廣告。
2.如權(quán)利要求1所述的方法,其特征在于,在所述使用預(yù)先得到的分類模型將用戶的微博數(shù)據(jù)自動分類到預(yù)先劃分的類別中之前包括下述步驟:
讀取訓(xùn)練微博;
將所述讀取的訓(xùn)練微博數(shù)據(jù)人工標(biāo)記為預(yù)先劃分的類別;
初始化讀取的訓(xùn)練微博數(shù)據(jù),以獲得微博文本詞項(xiàng)集合,所述初始化讀取的訓(xùn)練微博數(shù)據(jù)包括去除讀取的訓(xùn)練微博數(shù)據(jù)中的特殊符號、非中文字符、分詞;
刪除所述微博文本詞項(xiàng)集合的停用詞,以獲得微博文本原始特征詞項(xiàng)集合;
生成特征詞項(xiàng)字典;
將所述微博文本原始特征詞項(xiàng)集合與所述特征詞項(xiàng)字典進(jìn)行映射,判斷所述微博文本原始特征詞項(xiàng)集合中的詞項(xiàng)是否出現(xiàn)在所述特征詞項(xiàng)字典中,并計(jì)算出現(xiàn)在所述特征詞項(xiàng)字典中的所述微博文本原始特征詞項(xiàng)集合中的詞項(xiàng)的tf-idf值,以作為所述出現(xiàn)在所述特征詞項(xiàng)字典中的所述微博文本原始特征詞項(xiàng)集合中的詞項(xiàng)在微博的特征值;
判斷所述特征詞項(xiàng)字典的詞項(xiàng)是否出現(xiàn)在所述微博文本原始特征詞項(xiàng)集合中,并將沒有出現(xiàn)在所述微博文本原始特征詞項(xiàng)集合中的所述特征詞項(xiàng)字典的詞項(xiàng)的特征值標(biāo)記為0;
采用預(yù)設(shè)的算法訓(xùn)練計(jì)算得到的所有特征值所組成的特征向量,以獲得分類模型。
3.如權(quán)利要求2所述的方法,其特征在于,所述生成特征詞項(xiàng)字典的步驟具體包括:
計(jì)算微博文本原始特征詞項(xiàng)集合中每個(gè)詞項(xiàng)的互信息值;
選取互信息值排名在前N的N個(gè)詞項(xiàng)作為特征詞項(xiàng)字典的詞項(xiàng),所述N為整數(shù),N大于0。
4.如權(quán)利要求2所述的方法,其特征在于,所述預(yù)設(shè)的算法包括以下任一種算法:
支持向量機(jī)SVM、樸素貝葉斯分類算法、神經(jīng)網(wǎng)絡(luò)、K臨近分類算法、遺傳算法。
5.如權(quán)利要求1所述的方法,其特征在于,所述以自動分類的結(jié)果為依據(jù),向讀取微博數(shù)據(jù)的用戶推薦廣告的步驟具體包括:
統(tǒng)計(jì)用戶的微博中每類微博所占的百分比;
將統(tǒng)計(jì)的每類微博所占的百分比與用戶在微博資料內(nèi)的標(biāo)簽進(jìn)行匹配,并將匹配成功的類別所占的百分比翻倍;
向讀取微博數(shù)據(jù)的用戶推薦排名在前M的M個(gè)類別的廣告,所述M為整數(shù),M大于0。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院深圳先進(jìn)技術(shù)研究院,未經(jīng)中國科學(xué)院深圳先進(jìn)技術(shù)研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310608335.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種橡膠配方
- 下一篇:一種新型電容器用橡膠密封圈及其制備方法
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





