[發(fā)明專利]社交網(wǎng)絡(luò)信息識(shí)別方法、處理方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201610956467.2 | 申請(qǐng)日: | 2016-10-27 |
| 公開(kāi)(公告)號(hào): | CN107992501B | 公開(kāi)(公告)日: | 2021-12-14 |
| 發(fā)明(設(shè)計(jì))人: | 劉杰 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/9536;G06F40/289;G06Q50/00 |
| 代理公司: | 廣州三環(huán)專利商標(biāo)代理有限公司 44202 | 代理人: | 郝傳鑫;賈允 |
| 地址: | 518000 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 社交 網(wǎng)絡(luò) 信息 識(shí)別 方法 處理 裝置 | ||
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種社交網(wǎng)絡(luò)信息識(shí)別方法、處理方法及裝置。本發(fā)明通過(guò)對(duì)目標(biāo)文本進(jìn)行分詞,將相鄰兩個(gè)分詞作為一個(gè)詞組,計(jì)算每個(gè)詞組中兩個(gè)分詞的關(guān)聯(lián)值,將其與虛假信息庫(kù)和真實(shí)信息庫(kù)中對(duì)應(yīng)的兩個(gè)詞的關(guān)聯(lián)值進(jìn)行比對(duì),根據(jù)關(guān)聯(lián)值接近程度來(lái)確定目標(biāo)文本中每個(gè)詞組的信息類型,進(jìn)而通過(guò)統(tǒng)計(jì)目標(biāo)文本中所有詞組的信息類型來(lái)確定目標(biāo)文本的信息類型,實(shí)現(xiàn)了通過(guò)較為簡(jiǎn)單的算法快速識(shí)別網(wǎng)絡(luò)虛假信息,可以為網(wǎng)絡(luò)管理者快速反應(yīng)提供重要的依據(jù),便于網(wǎng)絡(luò)管理者及時(shí)處理網(wǎng)絡(luò)虛假信息,降低虛假信息傳播造成的不良影響。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種社交網(wǎng)絡(luò)信息識(shí)別方法、處理方法及裝置。
背景技術(shù)
社交網(wǎng)絡(luò)的流行和普及,使得社交網(wǎng)絡(luò)中的信息數(shù)量呈現(xiàn)爆炸式地增長(zhǎng),然而信息質(zhì)量卻沒(méi)有得到相應(yīng)的提升,各種垃圾信息尤其是謠言等虛假信息充斥著整個(gè)社交網(wǎng)絡(luò),謠言的傳播與擴(kuò)散給人們的生活和社會(huì)的發(fā)展帶來(lái)了極大的危害和負(fù)面影響。
謠言是指沒(méi)有相應(yīng)事實(shí)基礎(chǔ),卻被捏造出來(lái)并通過(guò)一定手段推動(dòng)傳播的言論,在受眾未被明確或暗示虛構(gòu)的前提下,被捏造及傳播的與事實(shí)不同甚至相反的言論即是謠言。由于普通用戶的知識(shí)和信息量有限,無(wú)法識(shí)別出所有謠言,從而使謠言在社交網(wǎng)絡(luò)中廣泛傳播。如果能夠及時(shí)準(zhǔn)確地識(shí)別出社交網(wǎng)絡(luò)當(dāng)中的謠言消息,不僅有助于營(yíng)造良好的互聯(lián)網(wǎng)環(huán)境,幫助人們更好地識(shí)別信息的真?zhèn)危皶r(shí)杜絕惡意謠言帶來(lái)的嚴(yán)重危害,還能在輿情監(jiān)測(cè)、信息引導(dǎo)等方面發(fā)揮積極的作用。
目前已有的謠言識(shí)別方法主要可以分為兩類,一類是基于人工的方法,其機(jī)制主要是通過(guò)對(duì)已發(fā)布的消息進(jìn)行人工檢舉和判定,這類方法無(wú)法在謠言產(chǎn)生的初期遏制其傳播與擴(kuò)散,及時(shí)性差,并且需要大量的勞力和財(cái)力,成本性高;另一類方法是基于機(jī)器學(xué)習(xí)的方法,以微博為例,將微博內(nèi)容是否為謠言作為分類問(wèn)題來(lái)處理,并利用微博的各類特征,采用某種分類學(xué)習(xí)算法來(lái)進(jìn)行謠言的識(shí)別,在分類特征的選擇上,目前主要可以分成3種,分別是微博的內(nèi)容、發(fā)布者以及微博的傳播,在內(nèi)容特征的選擇上,主要是利用內(nèi)容的淺層文本特征(如內(nèi)容中是否包含鏈接、圖片、是否提及他人等);在發(fā)布者的方面,主要是選擇一些靜態(tài)特征,包括發(fā)布者的粉絲數(shù)、朋友數(shù)等基本屬性;這種機(jī)器學(xué)習(xí)方法雖然可以實(shí)現(xiàn)一定的謠言識(shí)別效果,但其內(nèi)容特征選擇較多,實(shí)施復(fù)雜。
發(fā)明內(nèi)容
發(fā)明人通過(guò)分析大量虛假信息和對(duì)應(yīng)的真實(shí)信息,發(fā)現(xiàn)在表達(dá)意思相似的兩個(gè)文本中,各文本中關(guān)鍵詞的相關(guān)性是相似的,而在表達(dá)意思不同的兩個(gè)文本中,各文本中關(guān)鍵詞的相關(guān)性差距甚大。以三段文本A、B和C為例,
文本A:羊肉能與綠豆同食;
文本B:羊肉可以和綠豆一起食用;
文本C:涼性的羊肉不能與綠豆同食;
通過(guò)提取各文本關(guān)鍵詞,得到文本A中的關(guān)鍵詞:羊肉、能、綠豆、同食,文本B中的關(guān)鍵詞:羊肉、可以、綠豆、食用,文本C中的關(guān)鍵詞:羊肉、不能、綠豆、同食;文本中各關(guān)鍵詞是前后關(guān)聯(lián)的,如果兩個(gè)文本中關(guān)鍵詞的關(guān)聯(lián)性不同且不相似,而其中一個(gè)是正確的,那么另一個(gè)就是錯(cuò)誤的,如兩個(gè)文本中關(guān)鍵詞的關(guān)聯(lián)性相同或近似,則兩個(gè)文本都是正確的或錯(cuò)誤的。
基于上述原理,可以通過(guò)收集虛假信息和對(duì)應(yīng)的真實(shí)信息,建立虛假信息庫(kù)和真實(shí)信息庫(kù),需要識(shí)別社交網(wǎng)絡(luò)中的信息是否為虛假信息時(shí),通過(guò)分析該信息中關(guān)鍵詞的相關(guān)性,來(lái)分別與真實(shí)信息庫(kù)和虛假信息庫(kù)中對(duì)應(yīng)的關(guān)鍵詞的相關(guān)性進(jìn)行比對(duì),與哪一類(虛假信息或真實(shí)信息)的相關(guān)度越接近則屬于那一類的可能性越大。
第一方面,本發(fā)明提供一種社交網(wǎng)絡(luò)信息識(shí)別方法,包括:
對(duì)目標(biāo)文本進(jìn)行分詞處理,得到目標(biāo)文本的分詞;
按照各分詞在目標(biāo)文本中的出現(xiàn)順序,將相鄰兩個(gè)分詞作為一個(gè)詞組,根據(jù)虛假信息庫(kù)和真實(shí)信息庫(kù)中的信息,確定每個(gè)詞組的信息類型,所述信息類型包括虛假信息、真實(shí)信息和無(wú)偏向信息;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610956467.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:濾光片膠包邊防塵的雙濾光切換器
- 下一篇:廣告檢索控制方法及裝置
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 一種社交對(duì)象搜索方法及裝置
- 針對(duì)嵌入式應(yīng)用上下文中的搜索的查詢意圖表達(dá)
- 一種關(guān)鍵社交信息的確定方法及裝置
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 動(dòng)態(tài)社交圈確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 控制社交分享信息在社交空間的呈現(xiàn)狀態(tài)的方法與設(shè)備
- 社交角色管理方法、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于社交關(guān)系的社交屬性數(shù)據(jù)確定方法、裝置及設(shè)備
- 一種社交賬戶推薦方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





