[發(fā)明專利]一種社交網(wǎng)絡(luò)賬號映射模型訓(xùn)練方法及映射方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201510252840.1 | 申請日: | 2015-05-18 |
| 公開(公告)號: | CN104866558B | 公開(公告)日: | 2018-08-10 |
| 發(fā)明(設(shè)計(jì))人: | 許洪波;樊茜;梁英;程學(xué)旗 | 申請(專利權(quán))人: | 中國科學(xué)院計(jì)算技術(shù)研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/66 |
| 代理公司: | 北京泛華偉業(yè)知識產(chǎn)權(quán)代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 社交 網(wǎng)絡(luò) 賬號 映射 模型 訓(xùn)練 方法 系統(tǒng) | ||
本發(fā)明提供一種社交網(wǎng)絡(luò)賬號映射模型訓(xùn)練方法,包括:1)將映射關(guān)系已知的微博s賬號集合中的任一個賬號與微博t賬號集合中的任一個賬號進(jìn)行兩兩組合構(gòu)成訓(xùn)練集;2)對每一個賬號組合提取賬號組合特征向量,包括:該賬號組合中兩個賬號各自的文本特征,兩個賬號在各自所屬微博中的社交關(guān)系特征,以及兩個賬號的擴(kuò)展共同鄰居特征,擴(kuò)展共同鄰居是兩個賬號各自的鄰居賬號中,那些已知屬于同一個自然人的鄰居賬號對;3)基于機(jī)器學(xué)習(xí)技術(shù)進(jìn)行訓(xùn)練得到社交網(wǎng)絡(luò)賬號映射模型。本發(fā)明還提供了相應(yīng)的社交網(wǎng)絡(luò)賬號映射方法及系統(tǒng)。本發(fā)明能夠減少關(guān)系數(shù)據(jù)稀疏性對映射結(jié)果的不利影響,有效地提高社交網(wǎng)絡(luò)賬號映射的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及社會計(jì)算領(lǐng)域,具體地說,本發(fā)明涉及一種社交網(wǎng)絡(luò)賬號映射方法及系統(tǒng)。
背景技術(shù)
如今,全球使用社交網(wǎng)絡(luò)的人越來越多,人們通常會通過多個社交網(wǎng)絡(luò)展開發(fā)布信息、聯(lián)系他人等社交行為。不同的社交網(wǎng)絡(luò)中,屬于同一用戶的多個賬號大多彼此隔離,它們之間一般沒有任何的連接。而這些社交網(wǎng)絡(luò)沒有統(tǒng)一的組織或者連通數(shù)據(jù)的合作,因此導(dǎo)致難以獲取屬于同一用戶的賬號集合。如果能夠獲取不同社交網(wǎng)絡(luò)中屬于同一用戶的賬號集合,就可以在如鏈路推薦和基于多個社交網(wǎng)絡(luò)數(shù)據(jù)的社區(qū)分析等方面提供更有價(jià)值的服務(wù)。
目前,對賬號映射問題的相關(guān)研究中,數(shù)據(jù)特征主要包括賬號屬性、賬號社交關(guān)系和賬號的操作行為三個方面的特征。其中多數(shù)相關(guān)研究依賴的數(shù)據(jù)是賬號的文本數(shù)據(jù)與屬性。但僅以文本或?qū)傩宰鳛檠芯康臄?shù)據(jù)來源是不夠的,會造成數(shù)據(jù)嚴(yán)重的稀疏性。而作為一種新的互動工具,微博上擁有大量的互粉關(guān)系數(shù)據(jù),可以作為賬號的相關(guān)數(shù)據(jù)進(jìn)行研究,不僅可以改善數(shù)據(jù)的稀疏性,還引入賬號的社交特點(diǎn),更易發(fā)現(xiàn)賬號區(qū)別他人的特征。然而,如果將現(xiàn)有的賬號映射方案直接用于跨社交網(wǎng)絡(luò)的賬號對齊中,其準(zhǔn)確率和映射概率均存在不足。
綜上所述,當(dāng)前迫切需要一種能夠準(zhǔn)確實(shí)現(xiàn)跨社交網(wǎng)絡(luò)的賬號映射(即找出屬于同一個自然人的在不同社交網(wǎng)絡(luò)中的不同賬號的映射關(guān)系)的解決方案。
發(fā)明內(nèi)容
因此,本發(fā)明的任務(wù)是克服上述現(xiàn)有技術(shù)的缺陷,提出一種社交網(wǎng)絡(luò)賬號映射解決方案。
根據(jù)本發(fā)明的一個方面,提供了一種社交網(wǎng)絡(luò)賬號映射模型訓(xùn)練方法,包括下列步驟:
1)將已知映射的微博s賬號集合中的任一個賬號與微博t賬號集合中的任一個賬號進(jìn)行組合,得到的h*h個賬號組合構(gòu)成訓(xùn)練集;
2)對于訓(xùn)練集中的每一個賬號組合,提取賬號組合特征向量,所述賬號組合特征向量包括:該賬號組合中兩個賬號各自的文本特征,兩個賬號在各自所屬微博中的社交關(guān)系特征,以及兩個賬號的擴(kuò)展共同鄰居特征,擴(kuò)展共同鄰居是兩個賬號各自的鄰居賬號中,那些已知屬于同一個自然人的鄰居賬號對;
3)基于機(jī)器學(xué)習(xí)技術(shù)構(gòu)建分類模型,根據(jù)訓(xùn)練集中各個賬號組合特征向量,以及訓(xùn)練集中各賬號組合已知的映射關(guān)系正負(fù)例,對分類模型進(jìn)行訓(xùn)練得到社交網(wǎng)絡(luò)賬號映射模型。
其中,所述兩個賬號的擴(kuò)展共同鄰居特征包括:兩個賬號的擴(kuò)展共同鄰居數(shù)量,反映兩個賬號的擴(kuò)展共同鄰居數(shù)量與兩個賬號的總鄰居數(shù)量的比例的特征,以及反映擴(kuò)展共同鄰居的度的特征中的一項(xiàng)或多項(xiàng)。
其中,反映兩個賬號的擴(kuò)展共同鄰居數(shù)量與兩個賬號的總鄰居數(shù)量的比例的特征為擴(kuò)展共同鄰居的Jaccard相似性系數(shù)。
其中,所述反映擴(kuò)展共同鄰居的度的特征為兩個賬號的Adamic/Adar Measure系數(shù)。
其中,所述賬號組合特征向量中的文本特征包括:賬號自身的發(fā)言中的高頻詞組特征。
其中,所述賬號組合特征向量中的社交關(guān)系特征包括:以賬號的互粉賬號為等權(quán)值元素所構(gòu)建的特征向量。
根據(jù)本發(fā)明的另一方面,提供了一種社交網(wǎng)絡(luò)賬號映射方法,包括下列步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院計(jì)算技術(shù)研究所,未經(jīng)中國科學(xué)院計(jì)算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510252840.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 一種社交對象搜索方法及裝置
- 針對嵌入式應(yīng)用上下文中的搜索的查詢意圖表達(dá)
- 一種關(guān)鍵社交信息的確定方法及裝置
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲介質(zhì)
- 動態(tài)社交圈確定方法、裝置、設(shè)備及存儲介質(zhì)
- 控制社交分享信息在社交空間的呈現(xiàn)狀態(tài)的方法與設(shè)備
- 社交角色管理方法、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 基于社交關(guān)系的社交屬性數(shù)據(jù)確定方法、裝置及設(shè)備
- 一種社交賬戶推薦方法、裝置、電子設(shè)備和存儲介質(zhì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





