[發(fā)明專利]一種特征詞分類方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請?zhí)枺?/td> | 202211453690.7 | 申請日: | 2022-11-21 |
| 公開(公告)號(hào): | CN115905950A | 公開(公告)日: | 2023-04-04 |
| 發(fā)明(設(shè)計(jì))人: | 曹特磊;唐亮;趙偉 | 申請(專利權(quán))人: | 時(shí)趣互動(dòng)(北京)科技有限公司 |
| 主分類號(hào): | G06F18/241 | 分類號(hào): | G06F18/241;G06F18/22;G06F40/289;G06F40/30 |
| 代理公司: | 北京智慧亮點(diǎn)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11950 | 代理人: | 王鴻遠(yuǎn) |
| 地址: | 100020 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 特征 分類 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
本發(fā)明提供了一種特征詞分類方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),能夠從歷史積累的海量文本中,提取用于構(gòu)建各個(gè)特征詞的原子語義字符組合,并訓(xùn)練這些字符組合的語義模型;對新特征詞先提取其中包含的這些字符組合,并獲取最新訓(xùn)練的語義向量和計(jì)算重要度權(quán)重,再進(jìn)行語義向量的加權(quán)累加,作為當(dāng)前特征詞整體的語義向量。采用這樣的處理方式,對特征詞這種長度極短的文本進(jìn)行了內(nèi)部特征的解構(gòu)分析,提升了重要內(nèi)部字符組合的語義影響度;并通過語義向量的方式,提高了該策略整體的泛化能力,使其在后續(xù)的分類和聚類處理中,都有較明顯的效果提升。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體而言,涉及一種特征詞分類方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
在對行業(yè)營銷數(shù)據(jù)中的特征詞進(jìn)行類別劃分的時(shí)候,傳統(tǒng)的基于每個(gè)特征詞整體的語義向量相似度或統(tǒng)計(jì)建模的策略,往往會(huì)忽略構(gòu)成當(dāng)前特征詞的內(nèi)部字符組合的含義,及其對特征詞類別判斷的重要影響。而且,構(gòu)成各特征詞的某些重要的字符組合,往往會(huì)影響整個(gè)特征詞的最終類別劃分。
比如,美妝行業(yè)中,“保濕”屬于“功效”類別,而“保濕霜”則屬于“品類”類別;同樣,對于某些有字符包含關(guān)系的特征詞,也有所屬類別完全不同的情況。例如,“佰草集”屬于“品牌”類別,而“佰草集新七白美白嫩膚面膜”則屬于“單品”類別。針對這些情況,用傳統(tǒng)的基于特征詞整體的語義向量或統(tǒng)計(jì)特征來進(jìn)行分類判斷的方法,往往會(huì)忽略掉其中導(dǎo)致類別差異的某些重要的字符組合的語義信息。
因此,如何提供一種更有效的特征詞分類方法,是目前亟待解決的問題。
發(fā)明內(nèi)容
為了改善上述問題,本發(fā)明提供了一種特征詞分類方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
本發(fā)明實(shí)施例的第一方面,提供了一種特征詞分類方法,所述方法包括:
獲取新增的行業(yè)特征詞;
對新增的行業(yè)特征詞提取行業(yè)特征詞的字符組合并進(jìn)行切分;
根據(jù)預(yù)先保存的字符組合語義模型,獲取所述行業(yè)特征詞的字符組合的語義向量以及對應(yīng)的權(quán)重;
加權(quán)累加字符組合的語義向量,得到當(dāng)前行業(yè)特征詞的整體語義向量;
根據(jù)所述整體語義向量對所述行業(yè)特征詞進(jìn)行整體類別判斷。
可選地,所述字符組合語義模型的訓(xùn)練方法包括:
獲取預(yù)先積累的特征詞文本數(shù)據(jù);
采用基于分布式的n-gram挖掘策略,提取特征詞文本數(shù)據(jù)中每個(gè)特征詞的字符組合,作為特征詞整體類別判斷的原子語義;
對提取的特征詞的字符組合進(jìn)行語義向量的構(gòu)建,得到字符組合語義模型。
可選地,所述對提取的特征詞的字符組合進(jìn)行語義向量的構(gòu)建的步驟,具體包括:
按照提取的原子語義對特征詞的字符組合進(jìn)行切分,構(gòu)建語義訓(xùn)練的樣本數(shù)據(jù);
使用gensim工具包,加載樣本數(shù)據(jù)并訓(xùn)練語義向量;
將訓(xùn)練后的字符組合的語義向量結(jié)果進(jìn)行保存。
可選地,在執(zhí)行所述構(gòu)建語義訓(xùn)練的樣本數(shù)據(jù)的步驟時(shí),將每條特征詞文本數(shù)據(jù)的所有切分可能都加入到訓(xùn)練樣本集合中,并確保各字符組合的位置順序與原文中出現(xiàn)的順序一致,且沒有切分位置上的重疊。
可選地,所述對新增的行業(yè)特征詞提取行業(yè)特征詞的字符組合并進(jìn)行切分的步驟,具體包括:
按照所述原子語義提取所述行業(yè)特征詞的字符組合并進(jìn)行切分;
采用“全量切分”策略,將所述行業(yè)特征詞內(nèi)部包含的所有出現(xiàn)在特征詞文本數(shù)據(jù)中的字符組合,都進(jìn)行提取。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于時(shí)趣互動(dòng)(北京)科技有限公司,未經(jīng)時(shí)趣互動(dòng)(北京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211453690.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





