[發(fā)明專利]句子級(jí)用戶畫像生成方法、裝置及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202110171840.4 | 申請(qǐng)日: | 2021-02-08 |
| 公開(公告)號(hào): | CN112989038B | 公開(公告)日: | 2022-06-21 |
| 發(fā)明(設(shè)計(jì))人: | 徐濤 | 申請(qǐng)(專利權(quán))人: | 浙江連信科技有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/33;G06F40/289;G06F17/16 |
| 代理公司: | 北京知果之信知識(shí)產(chǎn)權(quán)代理有限公司 11541 | 代理人: | 卜榮麗;李志剛 |
| 地址: | 310051 浙江省杭州市濱*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 句子 用戶 畫像 生成 方法 裝置 存儲(chǔ) 介質(zhì) | ||
本發(fā)明提供一種句子級(jí)用戶畫像生成方法、裝置及存儲(chǔ)介質(zhì),包括:接收會(huì)話語(yǔ)料,基于爬蟲系統(tǒng)對(duì)所述會(huì)話語(yǔ)料進(jìn)行處理獲取目標(biāo)語(yǔ)料,其中目標(biāo)語(yǔ)料包括一個(gè)或多個(gè)文本;對(duì)文本進(jìn)行分詞處理,獲得每個(gè)文本分詞的詞向量,基于每個(gè)文本分詞的詞向量生成該文本的句向量;將句向量轉(zhuǎn)換為矩陣得到句矩陣,將句矩陣與句矩陣的轉(zhuǎn)置矩陣相乘得到交叉矩陣;基于TextRank算法對(duì)交叉矩陣進(jìn)行概率轉(zhuǎn)移矩陣圖分解,生成句子級(jí)用戶畫像。本發(fā)明能夠?qū)τ脩舢嬕跃渥拥男问竭M(jìn)行個(gè)體化、具體化、形象化等特征的描述。填補(bǔ)了詞級(jí)、大顆粒的群體標(biāo)簽對(duì)個(gè)體用戶心理畫像描述的缺失,通過(guò)人機(jī)會(huì)話的語(yǔ)料,實(shí)現(xiàn)對(duì)個(gè)體的心理訴求進(jìn)行畫像,細(xì)顆粒表示了個(gè)體用戶的訴求標(biāo)簽。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù),尤其涉及一種句子級(jí)用戶畫像生成方法、裝置及存儲(chǔ)介質(zhì)。
背景技術(shù)
關(guān)鍵詞標(biāo)簽,主要用于精準(zhǔn)營(yíng)銷、分發(fā)推送到真實(shí)目標(biāo)用戶群,是對(duì)群體特征的高度聚類、抽象后的一種標(biāo)注描述,在該群中的所有個(gè)體用戶繼承了集體的一般、普遍、大眾化的特征。然而,以識(shí)別細(xì)分群體為目標(biāo)的關(guān)鍵詞標(biāo)簽,缺失了用戶個(gè)體化、具體化、形象化的特征表達(dá)。
以在商品購(gòu)物、內(nèi)容閱讀、服務(wù)消費(fèi)場(chǎng)等場(chǎng)為例,用戶畫像主要使用關(guān)鍵詞標(biāo)簽的語(yǔ)義關(guān)鍵詞來(lái)標(biāo)注目標(biāo)群體,是一種詞級(jí)的用戶畫像特征描述。但是其無(wú)法進(jìn)行句子級(jí)、連續(xù)可讀的自動(dòng)生成個(gè)體用戶心理畫像描述,進(jìn)而無(wú)法對(duì)用戶個(gè)體化、具體化、形象化等特征進(jìn)行表達(dá)。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種句子級(jí)用戶畫像生成方法、裝置及存儲(chǔ)介質(zhì),能夠?qū)τ脩舢嬕跃渥拥男问竭M(jìn)行個(gè)體化、具體化、形象化等特征的描述。
本發(fā)明實(shí)施例的第一方面,提供一種句子級(jí)用戶畫像生成方法,包括:
接收會(huì)話語(yǔ)料,基于爬蟲系統(tǒng)對(duì)所述會(huì)話語(yǔ)料進(jìn)行處理獲取目標(biāo)語(yǔ)料,其中所述目標(biāo)語(yǔ)料包括一個(gè)或多個(gè)文本;
對(duì)所述一個(gè)或多個(gè)文本進(jìn)行分詞處理,獲得每個(gè)文本分詞的詞向量,基于所述每個(gè)文本分詞的詞向量生成該文本的句向量;
將所述句向量轉(zhuǎn)換為矩陣得到句矩陣,將所述句矩陣與所述句矩陣的轉(zhuǎn)置矩陣相乘得到交叉矩陣;
基于TextRank算法對(duì)所述交叉矩陣進(jìn)行概率轉(zhuǎn)移矩陣圖分解,生成句子級(jí)用戶畫像。
可選地,在第一方面的一種可能實(shí)現(xiàn)方式中,所述接收會(huì)話語(yǔ)料包括:
從人機(jī)會(huì)話系統(tǒng)中抽取出用戶留存的對(duì)話語(yǔ)料和\或短文本;
所述基于爬蟲系統(tǒng)對(duì)所述會(huì)話語(yǔ)料進(jìn)行處理獲取目標(biāo)語(yǔ)料包括:
搜索引擎爬蟲將對(duì)話語(yǔ)料和\或短文本發(fā)送給開放搜索引擎,所述基于所述對(duì)話語(yǔ)料和\或短文本進(jìn)行查詢得到搜索結(jié)果;
將所述搜索結(jié)果中的標(biāo)題文本和\或摘要文本作為目標(biāo)語(yǔ)料。
可選地,在第一方面的一種可能實(shí)現(xiàn)方式中,所述對(duì)所述一個(gè)或多個(gè)文本進(jìn)行分詞處理,獲得每個(gè)文本分詞的詞向量包括:
基于開源分詞工具將對(duì)文本進(jìn)行分詞處理,并轉(zhuǎn)化為詞向量表示;
基于所述每個(gè)文本分詞的詞向量生成該文本的句向量包括:
將一個(gè)句子中的詞向量相加除以單詞的數(shù)量得到一個(gè)加權(quán)平均向量,所述加權(quán)平均向量為句向量。
可選地,在第一方面的一種可能實(shí)現(xiàn)方式中,將所述句向量轉(zhuǎn)換為矩陣得到句矩陣,將所述句矩陣與所述句矩陣的轉(zhuǎn)置矩陣相乘得到交叉矩陣;
計(jì)算句矩陣和其轉(zhuǎn)置矩陣中句向量的點(diǎn)積,得到語(yǔ)義相似度的分?jǐn)?shù)矩陣,所述分?jǐn)?shù)矩陣為交叉矩陣。
可選地,在第一方面的一種可能實(shí)現(xiàn)方式中,所述基于TextRank算法對(duì)所述交叉矩陣進(jìn)行概率轉(zhuǎn)移矩陣圖分解,生成句子級(jí)用戶畫像包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江連信科技有限公司,未經(jīng)浙江連信科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110171840.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用戶畫像標(biāo)簽查詢方法、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 廣告投放方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種主體畫像生成的方法、裝置和存儲(chǔ)介質(zhì)
- 基于流平臺(tái)的智能全景客戶畫像聯(lián)動(dòng)方法及系統(tǒng)
- 畫像構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 畫像構(gòu)建方法、裝置、終端及存儲(chǔ)介質(zhì)
- 一種適用于城市軌道交通的乘客畫像系統(tǒng)及其構(gòu)建方法
- 用戶畫像方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及終端設(shè)備
- 一種跨境場(chǎng)景畫像構(gòu)建方法和裝置
- 一種用戶畫像方法與裝置





