[發明專利]一種針對商品評價進行聚類分析的方法在審
| 申請號: | 201811332419.1 | 申請日: | 2018-11-09 |
| 公開(公告)號: | CN109543035A | 公開(公告)日: | 2019-03-29 |
| 發明(設計)人: | 鄭志軍;程國艮 | 申請(專利權)人: | 中譯語通科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27;G06Q30/02 |
| 代理公司: | 北京中譽威圣知識產權代理有限公司 11279 | 代理人: | 蔣常雪 |
| 地址: | 100040 北京市石*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關注點 語義 聚類分析 分句 句子 句子挑選 密度聚類 情感分類 數據用戶 預先定義 詞抽取 細粒度 語料 查詢 局限 客戶 購買 | ||
1.一種針對商品評價進行聚類分析的方法,其特征在于,該方法包括如下步驟:
根據用戶的關注點kw0從評價語料中抽取語義最接近的l個詞形成關鍵詞集合KW;其中,l為大于1的自然數;
對商品的所有評價進行分句處理,得到商品評價集合S;
將S中含有關鍵詞集合KW中元素的句子挑選出來組成集合Sk;
利用正向情感詞詞典和負向情感詞詞典將集合Sk分為包含正向情感的商品評價集合Poss和包含負向情感的商品評價集合Negs;
對所述集合Poss和所述集合Negs進行密度聚類處理,得到更細粒度的買家對商品的具體態度。
2.根據權利要求1所述的方法,其特征在于:所述關鍵詞集合KW可表示為:
KW=f1(kw0)={kw0,kw1,kw2...kwl},其中f1(kw0)表示取與關注點kw0相似度最大的l個詞;
所述相似度最大的l個詞的獲取方式為通過gensim獲得與kw0的詞向量最接近的l個向量對應的詞;其中詞向量的訓練采用skip-gram模型,訓練的數據為對應商品的評價數據。
3.根據權利要求1-2中任一項所述的方法,其特征在于:所述的集合Sk可表示為:
Sk={s0,s1,s2...sm},其中sm表示集合S中第m個含有所述關鍵詞集合KW中元素的句子,m表示所有商品評價中滿足要求的句子個數。
4.根據權利要求1-3中任一項所述的方法,其特征在于:所述包含正向情感的商品評價集合Poss可表示為:
Poss={pos0,pos1,pos2...post},其中post表示含有正向情感的句子,t表示含有正向情感的句子數量;
所述包含負向情感的商品評價集合Negs可表示為:
Negs={neg0,neg1,neg2...negT},其中negT表示含有負向情感的句子,T表示含有負向情感的句子數量。
5.根據權利要求4中任一項所述的方法,其特征在于:所述密度聚類處理方法為:
對包括了Poss和Negs的集合Sk中的每個句子si進行分詞處理,得到其中i∈[0,m],表示句子si中的第n個分詞,n表示分詞的個數;
將si中每個詞對應于skip-gram模型中訓練好的詞向量取出形成詞向量序列表示第n個分詞的詞向量;
對于未登錄詞則產生維度相同的隨機向量,并且商品評價集合中相同的未登錄詞只隨機產生一次詞向量;
為每一個詞向量分配不同的權重;
對句子si計算詞向量的加權和。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技股份有限公司,未經中譯語通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811332419.1/1.html,轉載請聲明來源鉆瓜專利網。





