[發明專利]一種購買詞聚類方法和裝置有效
| 申請號: | 201110430301.4 | 申請日: | 2011-12-20 |
| 公開(公告)號: | CN103176975A | 公開(公告)日: | 2013-06-26 |
| 發明(設計)人: | 楊俊麗;王迪;赫南 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 張玉波;宋志強 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 購買 詞聚類 方法 裝置 | ||
1.一種購買詞聚類方法,其特征在于,該方法包括:
根據每個廣告主購買的購買詞、以及購買每個購買詞的次數,為每個購買詞建立廣告主向量,
其中,所述廣告主向量中的每個廣告主特征均購買了所述購買詞,每個廣告主特征在所述廣告主向量中的權重根據所述次數確定;
根據各個購買詞的廣告主向量,對購買詞進行聚類。
2.根據權利要求1所述的方法,其特征在于,所述根據各個購買詞的廣告主向量,對購買詞進行聚類包括:
確定一個以上的初始聚類簇;
獲取待分類的購買詞的廣告主向量,確定各個聚類簇的中心,計算待分類的購買詞的廣告主向量與各個聚類簇的中心之間的距離,如果所述距離滿足預定條件,則將該待分類的購買詞分入相應的聚類簇中。
3.根據權利要求2所述的方法,其特征在于,該方法還包括:
在待分類的購買詞的廣告主向量與各個聚類簇的中心之間的距離均不滿足所述預定條件時,將該待分類的購買詞確定為新建的聚類簇,或者等待重新對所述待分類的購買詞進行聚類。
4.根據權利要求2所述的方法,其特征在于,所述確定一個以上的初始聚類簇包括:
隨機選擇購買詞,根據隨機選擇的購買詞確定一個以上的初始聚類簇。
5.根據權利要求2所述的方法,其特征在于,所述確定一個以上的初始聚類簇包括:
計算購買詞的simhash值,根據不同購買詞的simhash值之間的距離,選擇所述距離滿足預定條件的購買詞,根據選出的購買詞及其simhash值確定一個以上的初始聚類簇。
6.根據權利要求2所述的方法,其特征在于,所述計算待分類的購買詞的廣告主向量與各個聚類簇的中心之間的距離之前,該方法還包括:
確定待分類的購買詞的廣告主向量中每個廣告主特征已經購買的購買詞,確定所述已經購買的購買詞所歸屬的聚類簇,確定出的所有聚類簇組成該待分類的購買詞的候選聚類簇集合;
根據購買詞被所述每個廣告主特征購買的次數、和該購買詞的廣告主向量與該購買詞所歸屬的聚類簇中心之間的距離,確定該購買詞所歸屬的聚類簇在所述候選聚類簇集合中的權重;
根據待分類的購買詞的候選聚類簇集合中各個聚類簇的權重,從所述候選聚類簇集合中選擇權重滿足預定條件的聚類簇;
所述計算待分類的購買詞的廣告主向量與各個聚類簇的中心之間的距離包括:
計算待分類的購買詞的廣告主向量與從所述候選聚類簇集合中選出的每個聚類簇中心之間的距離。
7.根據權利要求2或6所述的方法,其特征在于,所述確定各個聚類簇的中心包括:
計算聚類簇中所有購買詞的廣告主向量的平均值,將該平均值確定為該聚類簇的中心。
8.根據權利要求2或6所述的方法,其特征在于,所述計算待分類的購買詞的廣告主向量與各個聚類簇的中心之間的距離包括:
計算待分類的購買詞的廣告主向量與聚類簇的中心之間的夾角的余弦值,將該余弦值確定為該待分類的購買詞的廣告主向量與該聚類簇的中心之間的距離。
9.根據權利要求2或6所述的方法,其特征在于,判斷所述距離是否滿足預定條件包括:
從待分類的購買詞的廣告主向量與各個聚類簇的中心之間的距離中選出最大的距離,判斷該最大的距離是否大于預定閾值,如果大于,則所述距離滿足預定條件,否則所述距離不滿足預定條件;
所述將該待分類的購買詞分入相應的聚類簇中包括:
將該待分類的購買詞分入所述最大的距離對應的聚類簇中。
10.根據權利要求2所述的方法,其特征在于,該方法還包括:
從同一聚類簇中選擇任意兩個購買詞,計算所述兩個購買詞的廣告主向量之間的夾角的余弦值,在該余弦值大于預定閾值時,將所述兩個購買詞確定為具有第一置信度的關聯購買詞對。
11.根據權利要求10所述的方法,其特征在于,將所述兩個購買詞確定為具有第一置信度的關聯購買詞對之后,該方法還包括:
利用語義相似度工具對所述具有第一置信度的關聯購買詞對進行過濾,得到具有第二置信度的等價購買詞對,其中,第二置信度高于第一置信度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110430301.4/1.html,轉載請聲明來源鉆瓜專利網。





