[發(fā)明專利]句子級用戶畫像生成方法、裝置及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110171840.4 | 申請日: | 2021-02-08 |
| 公開(公告)號: | CN112989038B | 公開(公告)日: | 2022-06-21 |
| 發(fā)明(設(shè)計)人: | 徐濤 | 申請(專利權(quán))人: | 浙江連信科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F40/289;G06F17/16 |
| 代理公司: | 北京知果之信知識產(chǎn)權(quán)代理有限公司 11541 | 代理人: | 卜榮麗;李志剛 |
| 地址: | 310051 浙江省杭州市濱*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 句子 用戶 畫像 生成 方法 裝置 存儲 介質(zhì) | ||
1.一種句子級用戶畫像生成方法,其特征在于,包括:
接收會話語料,基于爬蟲系統(tǒng)對所述會話語料進(jìn)行處理獲取目標(biāo)語料,其中所述目標(biāo)語料包括一個或多個文本;
對所述一個或多個文本進(jìn)行分詞處理,獲得每個文本分詞的詞向量,基于所述每個文本分詞的詞向量生成該文本的句向量;
將所述句向量轉(zhuǎn)換為矩陣得到句矩陣,將所述句矩陣與所述句矩陣的轉(zhuǎn)置矩陣相乘得到交叉矩陣;
基于TextRank算法對所述交叉矩陣進(jìn)行概率轉(zhuǎn)移矩陣圖分解,生成句子級用戶畫像;
所述基于爬蟲系統(tǒng)對所述會話語料進(jìn)行處理獲取目標(biāo)語料包括:
搜索引擎爬蟲將對話語料和\或短文本發(fā)送給開放搜索引擎,基于所述對話語料和\或短文本進(jìn)行查詢得到搜索結(jié)果;
將所述搜索結(jié)果中的標(biāo)題文本和\或摘要文本作為目標(biāo)語料;
所述基于TextRank算法對所述交叉矩陣進(jìn)行概率轉(zhuǎn)移矩陣圖分解,生成句子級用戶畫像包括:
所述交叉矩陣包括多個句子節(jié)點,其中每個句子節(jié)點的權(quán)重默認(rèn)為1,節(jié)點間的邊權(quán)重為語義相似度分?jǐn)?shù),阻尼系數(shù)為0.85,狀態(tài)向量等于0.15 + 0.85*M,其中M為交叉矩陣;
對所述交叉矩陣經(jīng)過若干個迭代后,得到一個穩(wěn)定態(tài)向量;
將向量數(shù)組中最大的N個數(shù)值所對應(yīng)的句子作為句子級用戶畫像,該數(shù)值在向量數(shù)組中的索引編號即對應(yīng)矩陣的行和\或列所對應(yīng)的句子。
2.根據(jù)權(quán)利要求1所述的句子級用戶畫像生成方法,其特征在于,
所述接收會話語料包括:
從人機(jī)會話系統(tǒng)中抽取出用戶留存的對話語料和\或短文本。
3.根據(jù)權(quán)利要求2所述的句子級用戶畫像生成方法,其特征在于,
所述對所述一個或多個文本進(jìn)行分詞處理,獲得每個文本分詞的詞向量包括:
基于開源分詞工具將對文本進(jìn)行分詞處理,并轉(zhuǎn)化為詞向量表示;
基于所述每個文本分詞的詞向量生成該文本的句向量包括:
將一個句子中的詞向量相加除以單詞的數(shù)量得到一個加權(quán)平均向量,所述加權(quán)平均向量為句向量。
4.根據(jù)權(quán)利要求1所述的句子級用戶畫像生成方法,其特征在于,
將所述句向量轉(zhuǎn)換為矩陣得到句矩陣,將所述句矩陣與所述句矩陣的轉(zhuǎn)置矩陣相乘得到交叉矩陣包括:
計算句矩陣和其轉(zhuǎn)置矩陣中句向量的點積,得到語義相似度的分?jǐn)?shù)矩陣,所述分?jǐn)?shù)矩陣為交叉矩陣。
5.一種句子級用戶畫像生成裝置,其特征在于,包括:
獲取模塊,用于接收會話語料,基于爬蟲系統(tǒng)對所述會話語料進(jìn)行處理獲取目標(biāo)語料,其中所述目標(biāo)語料包括一個或多個文本;
處理模塊,用于對所述一個或多個文本進(jìn)行分詞處理,獲得每個文本分詞的詞向量,基于所述每個文本分詞的詞向量生成該文本的句向量;
交叉模塊,用于將所述句向量轉(zhuǎn)換為矩陣得到句矩陣,將所述句矩陣與所述句矩陣的轉(zhuǎn)置矩陣相乘得到交叉矩陣;
生成模塊,用于基于TextRank算法對所述交叉矩陣進(jìn)行概率轉(zhuǎn)移矩陣圖分解,生成句子級用戶畫像;
所述獲取模塊包括搜索單元:
所述搜索單元用于搜索引擎爬蟲將對話語料和\或短文本發(fā)送給開放搜索引擎,基于所述對話語料和\或短文本進(jìn)行查詢得到搜索結(jié)果;
將所述搜索結(jié)果中的標(biāo)題文本和\或摘要文本作為目標(biāo)語料;
所述生成模塊還用于執(zhí)行以下步驟:
所述交叉矩陣包括多個句子節(jié)點,其中每個句子節(jié)點的權(quán)重默認(rèn)為1,節(jié)點間的邊權(quán)重為語義相似度分?jǐn)?shù),阻尼系數(shù)為0.85,狀態(tài)向量等于0.15 + 0.85*M,其中M為交叉矩陣;
對所述交叉矩陣經(jīng)過若干個迭代后,得到一個穩(wěn)定態(tài)向量;
將向量數(shù)組中最大的N個數(shù)值所對應(yīng)的句子作為句子級用戶畫像,該數(shù)值在向量數(shù)組中的索引編號即對應(yīng)矩陣的行和\或列所對應(yīng)的句子。
6.根據(jù)權(quán)利要求5所述的句子級用戶畫像生成裝置,其特征在于,
所述獲取模塊包括抽取單元:
所述抽取單元用于從人機(jī)會話系統(tǒng)中抽取出用戶留存的對話語料和\或短文本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江連信科技有限公司,未經(jīng)浙江連信科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110171840.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用戶畫像標(biāo)簽查詢方法、設(shè)備及計算機(jī)可讀存儲介質(zhì)
- 廣告投放方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)
- 一種主體畫像生成的方法、裝置和存儲介質(zhì)
- 基于流平臺的智能全景客戶畫像聯(lián)動方法及系統(tǒng)
- 畫像構(gòu)建方法、裝置、設(shè)備及存儲介質(zhì)
- 畫像構(gòu)建方法、裝置、終端及存儲介質(zhì)
- 一種適用于城市軌道交通的乘客畫像系統(tǒng)及其構(gòu)建方法
- 用戶畫像方法、裝置、計算機(jī)可讀存儲介質(zhì)及終端設(shè)備
- 一種跨境場景畫像構(gòu)建方法和裝置
- 一種用戶畫像方法與裝置





