[發(fā)明專利]一種購買詞聚類方法和裝置有效
| 申請?zhí)枺?/td> | 201110430301.4 | 申請日: | 2011-12-20 |
| 公開(公告)號: | CN103176975A | 公開(公告)日: | 2013-06-26 |
| 發(fā)明(設(shè)計)人: | 楊俊麗;王迪;赫南 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京德琦知識產(chǎn)權(quán)代理有限公司 11018 | 代理人: | 張玉波;宋志強 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 購買 詞聚類 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及一種購買詞聚類方法和裝置。
背景技術(shù)
文本聚類技術(shù),是根據(jù)文本之間的關(guān)聯(lián)關(guān)系,將一組文本劃分成若干個子集的技術(shù),子集內(nèi)的文本之間距離很近,子集之間的距離相差比較大,其實質(zhì)是尋找隱藏在數(shù)據(jù)中的不同的數(shù)據(jù)模型,能夠?qū)崿F(xiàn)樣本空問的盲分類。
所謂購買詞,是指競價廣告等系統(tǒng)中用戶提交的用于競價的文本內(nèi)容。購買詞是一種較短的文本,平均長度在3-5個詞,在某種程度上可以看作是短文本,因此,購買詞聚類可以抽象為對一個短文本的集合進行聚類的過程。
現(xiàn)有的文本聚類方法主要是基于VSM的方法,通過把文本映射到向量空間中的一個點,通過計算點與點之間的距離實現(xiàn)對文本進行聚類。而這種常見的聚類方法,對短文本的情形并不是十分奏效,因為短文本存在稀疏性問題:文本長度短,包含的字少,存在一詞多義以及一義多詞(即一個意思可以用不同的詞來表達)的現(xiàn)象。
現(xiàn)有技術(shù)中,針對短文本的稀疏性問題,常見的解決方法是對原始文本進行擴充,豐富文本的外在表現(xiàn)形式,從而實現(xiàn)對短文本的聚類。
例如,通過引入重構(gòu)長文本的思想解決短文本的稀疏性問題;再例如,首先利用FP-Growth算法挖掘訓練集特征項與測試集特征項之間的共現(xiàn)關(guān)系,然后用得到的關(guān)聯(lián)規(guī)則對短文本測試文檔中的概念詞語進行特征擴展。
可見,現(xiàn)有的短文本聚類方法,都是根據(jù)短文本本身包含的詞,對短文本的外在表現(xiàn)形式和特征進行擴展,從而克服短文本的稀疏性問題,提高短文本聚類的準確性。
然而,現(xiàn)有這些短文本聚類方法,對聚類準確性的提高仍然有限。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種購買詞聚類方法和裝置,能提高購買詞聚類的準確性。
本發(fā)明的技術(shù)方案具體是這樣實現(xiàn)的:
一種購買詞聚類方法,該方法包括:
根據(jù)每個廣告主購買的購買詞、以及購買每個購買詞的次數(shù),為每個購買詞建立廣告主向量,,
其中,所述廣告主向量中的每個廣告主特征均購買了所述購買詞,每個廣告主特征在所述廣告主向量中的權(quán)重根據(jù)所述次數(shù)確定;
根據(jù)各個購買詞的廣告主向量,對購買詞進行聚類。
一種購買詞聚類裝置,該裝置包括廣告主向量建立模塊和聚類模塊;
所述廣告主向量建立模塊,用于根據(jù)每個廣告主購買的購買詞、以及購買每個購買詞的次數(shù),為每個購買詞建立廣告主向量,,其中,所述廣告主向量中的每個廣告主特征均購買了所述購買詞,每個廣告主特征在所述廣告主向量中的權(quán)重根據(jù)所述次數(shù)確定;
所述聚類模塊,用于根據(jù)各個購買詞的廣告主向量,對購買詞進行聚類。
由上述技術(shù)方案可見,本發(fā)明通過為購買詞建立廣告主向量,根據(jù)各個購買詞的廣告主向量,對購買詞進行聚類,由于當兩個購買詞被相同的一個或多個廣告主購買時,這兩個購買詞之間一般存在一定的關(guān)聯(lián)關(guān)系,因此,通過比較各個購買詞的廣告主向量,可以實現(xiàn)對購買詞的聚類。
附圖說明
圖1是本發(fā)明提供的購買詞聚類方法流程圖。
圖2是本發(fā)明提供的購買詞聚類方法第一詳細流程圖。
圖3是本發(fā)明提供的購買詞聚類方法第二詳細流程圖。
圖4是本發(fā)明提供的購買詞聚類裝置結(jié)構(gòu)圖。
具體實施方式
圖1是本發(fā)明提供的購買詞聚類方法流程圖。
如圖1所示,該方法包括:
步驟101,對于一購買詞,根據(jù)廣告主是否購買了該購買詞、以及購買該購買詞的次數(shù),為該購買詞建立廣告主向量。
其中,根據(jù)每個廣告主購買的購買詞、以及購買每個購買詞的次數(shù),為每個購買詞建立廣告主向量,所述廣告主向量中的每個廣告主特征均購買了所述購買詞,每個廣告主特征在所述廣告主向量中的權(quán)重根據(jù)所述次數(shù)確定。
步驟102,根據(jù)各個購買詞的廣告主向量,對購買詞進行聚類。
如果兩個購買詞被相同的一個或者多個廣告主購買,這樣這兩個購買詞之間就潛在的存在一種關(guān)聯(lián),這種關(guān)聯(lián)可以稱為被購買關(guān)系。
本發(fā)明能根據(jù)廣告庫購買詞之間的被購買關(guān)系,挖掘出來購買詞之間的潛在關(guān)聯(lián),當用普通的字面意義的方法得不到購買詞之間的關(guān)系的時候,本方法能明顯奏效。本發(fā)明適用于購買信息比較充分的系統(tǒng)中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110430301.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





