[發(fā)明專利]基于人際間會話信息的人際關(guān)系自動化畫像方法有效
| 申請?zhí)枺?/td> | 201611078731.3 | 申請日: | 2016-11-29 |
| 公開(公告)號: | CN106776895B | 公開(公告)日: | 2019-05-14 |
| 發(fā)明(設計)人: | 王博;王淵;武賢麗 | 申請(專利權(quán))人: | 天津大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/951 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李麗萍 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 人際 會話 信息 人際關(guān)系 自動化 畫像 方法 | ||
1.一種基于人際間會話信息的人際關(guān)系自動化畫像方法,其特征在于:包括以下步驟:
步驟一、定義會話雙方之間的會話信息集合:
P={P1,P2,...,Pn},P是指會話雙方之間的會話信息集合;其中,Pi是指會話信息集合中的某一條會話信息;當Wi.sup>=min_sup時,將會話信息集合P中的一個單詞集合Wi稱為一個頻繁項;其中,Wi.sup表示會話信息集合P中一個單詞集合Wi的支持度,支持度為n表示在會話信息集合P中有n條信息包含單詞集合Wi;min_sup用來表示會話信息集合P中一個頻繁項的最小支持度;
步驟二、頻繁項集的挖掘:
采用FP-Growth算法在會話信息集合P中挖掘出一個頻繁項集;設會話信息集合P大小為size,單位是kb,且會話信息集合P中包含m條會話信息,則該頻繁項的最小支持度的取值按照如下公式計算可得:
式(1)中,p的取值范圍為0.2-0.5,所述頻繁項集中頻繁項的長度為2到10;
步驟三、提取會話信息中的主題,有下述兩種方法之一:
方法一是將步驟二挖掘出的頻繁項集中的頻繁項按照頻繁項的支持度進行降序排列,然后提取前3-5個頻繁項作為主題,這些主題詞組合后即為會話信息中的主題;
方法二包括以下兩步驟:
步驟2-1、頻繁項集聚類:
首先,進行相似頻繁項的過濾,過濾掉所述頻繁項集中的所有子集和頻繁項集中相似度很高的交叉項得到重要頻繁項集;其中,交叉項指的是頻繁項集中有相同單詞的頻繁項;F={F1,F2,...,Fm}為過濾前的頻繁項集,將重要頻繁項集初始化為Key_F=Φ,重要頻繁項集記為Key_F;對于進行下述處理過程:
對于如果Fi是Fj的一個子集,將Fi從F移除;如果Fi是Fj的交叉項,F(xiàn)i與Fj之間的Jacard相似度J(Fi,Fj)用以下公式計算:
J(Fi,Fj)=|Fi∩Fj|/|Fi∪Fj|
當Fi與Fj之間的相似度大于0.5時,將Fi從F中移除;如果對于J(Fi,Fj)均小于等于0.5時,則將Fi添加至Key_F;
重復上述處理過程直至F=Key_F;此時Key_F中的項集即為過濾后的重要頻繁項集;
然后,計算過濾后的重要頻繁項集Key_F中包含的全部單詞在會話雙方會話信息集合P中的逆向文本頻率即idf值;利用所述idf值計算重要頻繁項集Key_F中任意兩個頻繁項之間的相似度,兩個頻繁項之間的相似度等于兩個頻繁項的相關(guān)文本集之間的相似度;其中,相關(guān)文本集用以下方法求得:
通過計算過濾前的頻繁項集中的Fi與會話信息集合P中的某一條會話信息Pi之間的相似度,如果Fi與Pi之間的相似度大于c,c的取值范圍為0.05-0.2;則將Pi添加至Fi的相關(guān)文本集當中,最終,F(xiàn)i的相關(guān)文本集用Ri進行表示,F(xiàn)i與Pi之間的相似度由如下公式求得:
式(2)中,tfij指的是Fi中的第j個單詞在Pi中出現(xiàn)的頻率,idfij指的Fi中的第j個單詞的逆向文本頻率,得到每個頻繁項的相關(guān)文本集之后,利用相關(guān)文本集計算任意兩個頻繁項之間的相似度,計算公式如下:
得到任意兩個頻繁項之間的相似度之后,進行聚類個數(shù)的估計;
設定有一頻繁項集簇,并將該頻繁項集簇初始化為C={C1},C1={F1},F(xiàn)1是從Key_F中隨機選擇的一個頻繁項;
對于比較Fi和C中當前所有的簇之間的相似度,頻繁項Fi和簇Ck之間的相似度計算如下:
如果Csim是與Fi相似度最高的那個簇而且sim(Fi,Csim)>b,b=0.2,則將Fi添加至Csim;如果sim(Fi,Csim)<=b,則創(chuàng)建一個新的簇并把Fi添加至新簇;
然后,把C中的簇按照簇的大小進行降序排列,即Csort={C(1),C(2),...,C(n)};依次累加C(i)中的頻繁項個數(shù)直至累加和超過Key_F中總的頻繁項個數(shù)的80%;如果k是最后一個在Csort中累加的下標,則k就是最終的預估聚類個數(shù);得到預估的聚類個數(shù),使用K-means算法對Key_F中的所有頻繁項進行聚類;
步驟2-2、提取聚類后的主題:
通過抽取聚類之后的每個類中的主題詞,將這些主題詞組合作為該類的主題,抽取主題詞時,考慮的因素包括詞的tf值、簇內(nèi)支持度和簇間區(qū)分度;
對于每個類中的所有單詞,按照如下公式計算每一個詞的重要程度:
式(5)中,第一項、第二項、第三項分別表示詞的tf值、簇內(nèi)支持度和簇間區(qū)分度;Wki指的是第k個類中的第i個單詞,tfki指的是第k個類中的第i個單詞的的tf值;|Fki|指的是在第k個類中包含單詞wki的頻繁項個數(shù);|Fk|指的是第k個類中總的頻繁項個數(shù);|Fi|指的是在Key_F中包含單詞Wki的頻繁項個數(shù);|F|指的是Key_F中總的頻繁項個數(shù);|Ci|指的是包含單詞Wki的類的個數(shù);|C|指的是類的總數(shù);
得到每個單詞的重要程度之后,把每個類中的單詞按照其重要程度進行降序排列,然后選擇前3~6個的單詞作為主題詞,這些主題詞的組合即為該類中的主題;
步驟四、確定會話雙方的關(guān)系內(nèi)涵:
根據(jù)步驟三獲得的會話信息中的主題,得出會話雙方的關(guān)系內(nèi)涵。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學,未經(jīng)天津大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611078731.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





