[發明專利]一種面向Twitter的社交廣告可投放性分析方法有效
| 申請號: | 201410494291.4 | 申請日: | 2014-09-24 |
| 公開(公告)號: | CN104268130B | 公開(公告)日: | 2017-02-15 |
| 發明(設計)人: | 張瑩;趙雪;俞力;蘇麗麗;袁曉潔 | 申請(專利權)人: | 南開大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G06Q30/02 |
| 代理公司: | 天津佳盟知識產權代理有限公司12002 | 代理人: | 侯力 |
| 地址: | 300071*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 twitter 社交 廣告 投放 分析 方法 | ||
1.一種面向Twitter的社交廣告可投放性分析方法,其特征在于該方法包括如下步驟:
第1、構建多源Twitter語料庫;
定義1:社交網絡Twitter用戶發布的每一條內容為一條tweet;
定義2:當前tweet為實時獲得的每一條tweet,用符號C表示;
定義3:最近tweet以當前tweet的發布時間為基準,獲得的由該用戶于基準時間前一星期內發布的tweet的集合,用符號R表示;
定義4:歷史tweet以當前tweet的發布時間為基準,獲得的由該用戶于基準時間前兩星期至前一星期內發布的tweet的集合,用符號H表示;
定義5:好友評論tweet為Twitter用戶好友對當前tweet發布的評論tweet的集合,用符號F表示;
定義6:多源Twitter語料庫中tweet的四種不同來源,包括:當前tweet、最近tweet、歷史tweet和好友評論tweet,構成語料源,用符號s表示,其中s=(C,R,H,F);
定義7:多源Twitter語料庫中的每一條語料,用m表示;
定義8:多源Twitter語料庫中的所有語料的個數,用M表示;
第2、多源Twitter語料主題分析
定義9:一條tweet中的詞,用w表示;
定義10:關于一條tweet的隱含語義,稱為主題,用符號z表示;
定義11:對于多源Twitter語料庫,不同的語料來源對應的主題的構成有所不同,在每種語料源下,對應的所有可能的主題構成一個主題集合T,用4元組T=(TC,TR,TH,TF)表示,其中:
①TC表示當前tweet對應的主題集合;
②TR表示最近tweet對應的主題集合;
③TH表示歷史tweet對應的主題集合;
④TF表示好友評論tweet對應的主題集合;
每一條tweet關于各個主題的出現概率,都構成一個概率分布;
定義12:每種語料源的所有tweet,關于對應主題集合中各個主題的概率構成tweet~主題概率分布,用符號θ表示;四種語料源下的所有tweet~主題概率分布θ,可以用4元組θ=(θC,θR,θH,θF)表示,其中:
①θC表示當前tweet關于主題集合TC中各個主題的概率分布;
②θR表示最近tweet關于主題集合TR中各個主題的概率分布;
③θH表示歷史tweet關于主題集合TH中各個主題的概率分布;
④θF表示好友評論tweet關于主題集合TF中各個主題的概率分布;
定義13:對于每種語料源和主題集合中的所有主題,關于對應詞典中的所有詞,構成主題~詞概率分布用4元組表示;其中:
①表示當前TC中各個主題關于詞典VC中的各個詞的概率分布;
②表示當前TR中各個主題關于詞典VR中的各個詞的概率分布;
③表示當前TH中各個主題關于詞典VH中的各個詞的概率分布;
④表示當前TF中各個主題關于詞典VF中的各個詞的概率分布;
第3、社交廣告可投放性分類預處理
定義14:有社交廣告可投放性是根據twitter用戶發布的tweet,分析用戶消費意圖;如果該條tweet具備消費意圖,則該條tweet成為具有社交廣告可投放性,反之為不具有社交廣告可投放性;
第3.1、分類特征選擇
第3.1.1、對于多源Twitter語料庫下的每一條語料m,獲取主題概率分布4元組θs[m]=(θC[m],θR[m],θH[m],θF[m]);
第3.1.2、對語料m的tweet~主題概率分布θs[m]按照概率值從大到小排序,得到排序后的4元組θs[m];
定義15:在特征選擇過程中,保留的主題稱為目標主題,用K表示目標主題數;
第3.1.3、對于θs[m]中的每一個主題概率分布,只保留關于前K主題的概率值;
定義16:經過特征選擇后,多源Twitter語料庫的所有語料關于各個目標主題的概率分布,稱為目標主題分布,表示為4元組Θs=(ΘC,ΘR,ΘH,ΘF),其中:
①ΘC表示當前tweet關于對應目標主題的概率分布;
②ΘR表示最近tweet關于對應目標主題的概率分布;
③ΘH表示歷史tweet關于對應目標主題的概率分布;
④ΘF表示好友評論tweet關于對應目標主題的概率分布;
第3.1.4、對于主題集合中的每一個主題t,獲取關于對應詞典的詞的概率分布4元組
第3.1.5、對主題t的主題~詞概率分布按照概率值從大到小排序,得到排序后的4元組
定義17:在特征選擇過程中,保留的詞稱為目標詞,用N表示目標詞數;
第3.1.6、對于中的每一個詞概率分布,只保留前N個詞的概率值;
定義18:經過特征選擇后,所有主題關于各個目標詞的概率分布,稱為目標詞分布,表示為4元組Ψs=(ΨC,ΨR,ΨH,ΨF),其中:
①ΨC表示主題集合TC關于對應目標詞的概率分布;
②ΨR表示主題集合TR關于對應目標詞的概率分布;
③ΨH表示主題集合TH關于對應目標詞的概率分布;
④ΨF表示主題集合TF關于對應目標詞的概率分布;
第3.2、特征提取
第3.2.1、對于每種語料源s=(C,R,H,F)下的每條語料m,建立哈希表Ω,初始為空;
第3.2.2、對于每條語料m:
①遍歷目標主題分布Θs[m]中的每一項,記下該項對應的目標主題及目標主題概率,記為(t,p);
②再根據遍歷到的每一個主題t,獲取該主題對應的目標詞及目標詞概率,記為(w,q);
③計算概率值的乘積:p*q;
④在對應哈希表Ω中查找詞w,若查找失敗,則將詞w并概率值乘積p*q一并插入到Ω;若w已存在于Ω中,則將對應位置處的概率值增加p*q;
第3.3、特征表示
掃描哈希表Ω中的每一個詞w,建立詞典υ,表示為4元組υ=(υC,υR,υH,υF);其中:
①υC表示當前tweet對應的高語義關聯詞構成的詞典,詞典中詞的個數記為|υC|;
②υR表示最近tweet對應的高語義關聯詞構成的詞典,詞典中詞的個數記為|υR|;
③υH表示歷史tweet對應的高語義關聯詞構成的詞典,詞典中詞的個數記為|υH|;
④υF表示好友評論tweet對應的高語義關聯詞構成的詞典,詞典中詞的個數記為|υF|;
定義19:語料m對應的tweet~詞概率向量,稱為社交廣告可投放性分類特征向量;
第4、構建社交廣告可投放性分類器
第4.1、根據社交廣告可投放性分類特征向量,構造線性回歸函數如下:
hπ(x)=π0X0+π1X1+…+πnXn
定義20:社交廣告可投放性分類特征向量[X0,X1,…,Xn]的系數[π0,π1,…,πn]稱為特征權重參數;
定義21:將線性回歸函數hπ(x)代入邏輯方程:,邏輯方程的定義為:
g(x)=exp(x)/(1+exp(x));
第4.2、將線性回歸函數hπ(x)代入邏輯方程g(x)以進行歸一化,替換其中的變量x得到:
g(hπ(x))=exp(hπ(x))/(1+exp(hπ(x)))
=exp(π0X0+π1X1+…+πnXn)/(1+exp(π0X0+π1X1+…+πnXn));
第4.3、利用牛頓迭代法獲得特征權重參數的訓練值[π0,π1,…,πn];
第4.4、設置社交廣告可投放性分類閾值,由于邏輯方程g(x)的閾值為[0,1],因此,根據實驗經驗,可以將社交廣告可投放性分類閾值設置為g(x)的中間值0.5;
第4.5、對于多源Twitter語料庫中的每一條語料m,利用特征權重參數的訓練值[π0,π1,…,πn]計算歸一化后的線性回歸函數g(hπ(x)),與閾值進行比較:如果大于閾值,則判定為具有社交廣告可投放性;否則判定為不具有社交廣告可投放性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南開大學,未經南開大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410494291.4/1.html,轉載請聲明來源鉆瓜專利網。





