[發(fā)明專利]基于機器學(xué)習(xí)的虛假信息鑒別方法、系統(tǒng)及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201910245401.6 | 申請日: | 2019-03-28 |
| 公開(公告)號: | CN110083827A | 公開(公告)日: | 2019-08-02 |
| 發(fā)明(設(shè)計)人: | 黃帆 | 申請(專利權(quán))人: | 無錫天脈聚源傳媒科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04 |
| 代理公司: | 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 44205 | 代理人: | 譚英強 |
| 地址: | 214000 江蘇省無錫市無錫*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 鑒別 虛假信息 區(qū)塊 向量序列 存儲介質(zhì) 基于機器 鑒別結(jié)果 鑒別模型 詞序列 預(yù)設(shè) 標(biāo)注 數(shù)據(jù)處理技術(shù) 準(zhǔn)確度 詞性標(biāo)注 分詞處理 鑒別信息 分類器 鏈節(jié)點 學(xué)習(xí) 語言 應(yīng)用 | ||
本發(fā)明公開了基于機器學(xué)習(xí)的虛假信息鑒別方法、系統(tǒng)及存儲介質(zhì),方法包括:對待鑒別信息進行分詞處理,得到詞序列;對詞序列進行詞性標(biāo)注,得到標(biāo)注序列;根據(jù)詞序列和標(biāo)注序列,生成向量序列;基于預(yù)設(shè)的鑒別模型對向量序列進行第一鑒別,得到第一結(jié)果;基于區(qū)塊鏈技術(shù)對第一結(jié)果進行第二鑒別,得到虛假信息鑒別結(jié)果。本發(fā)明的實施例通過預(yù)設(shè)的鑒別模型對向量序列進行第一鑒別后,還通過區(qū)塊鏈技術(shù)對第一結(jié)果進行第二鑒別,最終得到虛假信息鑒別結(jié)果,相較于傳統(tǒng)僅采用分類器來進行信息鑒別的方法,本發(fā)明能夠通過區(qū)塊鏈技術(shù),在不同區(qū)塊鏈節(jié)點對不同語言進行二次鑒別,提高了準(zhǔn)確度,可廣泛應(yīng)用于數(shù)據(jù)處理技術(shù)領(lǐng)域。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其是基于機器學(xué)習(xí)的虛假信息鑒別方法、系統(tǒng)及存儲介質(zhì)。
背景技術(shù)
謠言被定義為一個真實價值未經(jīng)驗證的故事或陳述。隨著社交網(wǎng)絡(luò)媒體的迅速發(fā)展,大量的謠言很容易在互聯(lián)網(wǎng)上傳播,比如微博、推特、微信群、朋友圈等平臺上傳播的推文,經(jīng)常會有一些誤導(dǎo)性的推文,影響公眾的正確認(rèn)知,甚至引起公眾恐慌和社會混亂。因此,在社交媒體上高效地檢測謠言至關(guān)重要,并且應(yīng)當(dāng)在謠言傳播之前盡可能早地檢測出來。
現(xiàn)有的方法主要基于手工特征的挖掘與SVM等傳統(tǒng)機器學(xué)習(xí)分類器實現(xiàn)。典型的手工特征可以是情感詞等內(nèi)容特征,也可以是昵稱、頭像等用戶特征,又或者是轉(zhuǎn)發(fā)次數(shù)等傳播特征。也有一些挖掘自用戶反饋行為、事件傳播的生命周期等更為復(fù)雜的特征。這些特征能夠在一定程度上區(qū)分謠言,結(jié)合傳統(tǒng)的有監(jiān)督機器學(xué)習(xí)分類器,能夠達到比較可觀的檢測效果。但是,現(xiàn)有的謠言檢測只通過分類器來鑒別,分類器只能識別指定的語言文字,檢測結(jié)果不夠準(zhǔn)確,無法識別各地的方言描述方式。
區(qū)塊鏈?zhǔn)欠植际綌?shù)據(jù)存儲、點對點傳輸、共識機制、加密算法等計算機技術(shù)的新型應(yīng)用模式,本質(zhì)上是一個去中心化的體系結(jié)構(gòu)。狹義來講,區(qū)塊鏈?zhǔn)且环N按照時間順序?qū)?shù)據(jù)區(qū)塊以順序相連的方式組合成的一種鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu),并以密碼學(xué)方式保證的不可篡改和不可偽造的分布式賬本。廣義來講,區(qū)塊鏈技術(shù)是利用塊鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)來驗證與存儲數(shù)據(jù)、利用分布式節(jié)點共識算法來生成和更新數(shù)據(jù)、利用密碼學(xué)的方式保證數(shù)據(jù)傳輸和訪問的安全、利用由自動化腳本代碼組成的智能合約來編程和操作數(shù)據(jù)的一種全新的分布式基礎(chǔ)架構(gòu)與計算范式。
目前,還沒有將區(qū)塊鏈技術(shù)應(yīng)用到虛假信息鑒別中的相關(guān)報道。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供一種準(zhǔn)確度高的基于機器學(xué)習(xí)的虛假信息鑒別方法、系統(tǒng)及存儲介質(zhì)。
第一方面,本發(fā)明實施例提供了一種基于機器學(xué)習(xí)的虛假信息鑒別方法,包括以下步驟:
對待鑒別信息進行分詞處理,得到詞序列;
對詞序列進行詞性標(biāo)注,得到標(biāo)注序列;
根據(jù)詞序列和標(biāo)注序列,生成向量序列;
基于預(yù)設(shè)的鑒別模型對向量序列進行第一鑒別,得到第一結(jié)果;
基于區(qū)塊鏈技術(shù)對第一結(jié)果進行第二鑒別,得到虛假信息鑒別結(jié)果。
進一步,還包括獲取待鑒別信息的步驟。
進一步,所述獲取待鑒別信息這一步驟,包括以下步驟:
獲取社交網(wǎng)絡(luò)信息的日志數(shù)據(jù),所述日志數(shù)據(jù)包括發(fā)布時間、轉(zhuǎn)發(fā)次數(shù)、閱讀次數(shù)、評論次數(shù)、閱讀者區(qū)域信息以及點贊次數(shù);
根據(jù)社交網(wǎng)絡(luò)信息的日志數(shù)據(jù),確定社交網(wǎng)絡(luò)信息的事件等級,所述事件等級包括熱點事件和普通事件;
從熱點事件中獲取待鑒別信息。
進一步,所述從熱點事件中獲取待鑒別信息這一步驟,包括以下步驟:
基于預(yù)設(shè)的語義分析模型,對熱點事件進行語義分析,得到語義分析結(jié)果;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于無錫天脈聚源傳媒科技有限公司,未經(jīng)無錫天脈聚源傳媒科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910245401.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 沿縱向拓展的區(qū)塊鏈的生成方法及系統(tǒng)
- 沿橫向拓展的區(qū)塊鏈的生成方法及系統(tǒng)
- 區(qū)塊鏈輕量化處理方法、區(qū)塊鏈節(jié)點及存儲介質(zhì)
- 餐廳配備裝置總成
- 區(qū)塊鏈處理方法、裝置及區(qū)塊鏈節(jié)點
- 本地區(qū)塊同步的檢驗方法、裝置、設(shè)備及存儲介質(zhì)
- 用于使用現(xiàn)有區(qū)塊鏈節(jié)點來托管新區(qū)塊鏈的方法和系統(tǒng)
- 一種錐體區(qū)塊、錐體區(qū)塊鏈結(jié)構(gòu)和方法
- 一種錐體區(qū)塊鏈共識系統(tǒng)、方法及網(wǎng)絡(luò)
- 區(qū)塊分布式區(qū)塊鏈的區(qū)塊數(shù)據(jù)結(jié)構(gòu)、存儲介質(zhì)及電子設(shè)備
- 電力信號的諧波相位測量方法和系統(tǒng)
- 電力信號的基波幅值測量方法和系統(tǒng)
- 電力信號的正弦參數(shù)測量方法和系統(tǒng)
- 電力信號的基波相位測量方法和系統(tǒng)
- 電力信號的諧波幅值測量方法和系統(tǒng)
- 字符序列處理方法及設(shè)備
- 目標(biāo)匹配方法及裝置、電子設(shè)備和存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)表示生成方法、裝置、存儲介質(zhì)和設(shè)備
- 神經(jīng)網(wǎng)絡(luò)中網(wǎng)絡(luò)表示生成、編碼方法和裝置
- 文本翻譯方法、裝置、存儲介質(zhì)和計算機設(shè)備





