[發明專利]一種謠言識別方法在審
| 申請號: | 201810224475.7 | 申請日: | 2018-03-19 |
| 公開(公告)號: | CN108614855A | 公開(公告)日: | 2018-10-02 |
| 發明(設計)人: | 陳鴻睿;肖日新;馬斌;紀其進 | 申請(專利權)人: | 眾安信息技術服務有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京市萬慧達律師事務所 11111 | 代理人: | 張慧娟 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本內容 分詞 向量 文本 高緯度 抓取 分類器模型 分詞處理 句子向量 判別模型 人力成本 輸出判定 輸入內容 效果測試 信息輸入 訓練語料 中文分詞 詞向量 向量化 分割 映射 詞庫 可讀 權重 判定 清洗 數據庫 存儲 關聯 輸出 | ||
本發明公開了一種謠言識別方法,所述方法包括:抓取有標記的文本內容,對文本進行清洗整理,并分割成句,將文本內容以句為單位存儲到數據庫中;依據中文分詞詞庫,對分割成句的文本內容進行分詞處理,將分詞后的內容再次整理,變成模型可讀、規范的形式作為模型的輸入內容;將分詞后的內容通過模型進行高緯度向量化關聯映射,再將詞向量進行權重上的組合,形成句子向量、段落向量或者文章向量,從模型輸出;將處理后的訓練語料信息輸入到分類器模型進行訓練,并輸出判定結果;構造待測文本函數,進行謠言判別模型的效果測試。本發明在降低了人力成本的同時,提高了謠言判定的可靠性。
技術領域
本發明屬于互聯網和人工智能領域,具體涉及一種謠言識別方法。
背景技術
在當今互聯網信息爆發的年代,人們極易獲取各式各樣的資訊,而面對海量資訊時,人們往往缺少辨明事物本身的能力,會被一些帶有專業手法的、傳播性質的、捏造的言論所迷惑,從而做出錯誤,甚至不利于社會發展的判斷,這種言論就是人們所熟知的謠言。謠言依據內容所屬領域大致可以分為:食品安全、醫學健康、科學技術、傳說軼事、寵物花草、自然環境6類。謠言可以傷害個人,傷害群體,甚至會傷害到社會,使得人們簡單、穩定的人際關系變得復雜、緊張,使得原本比較穩定的社會秩序變得混亂、不穩定。它不僅破壞人們的團結,削弱彼此的信任,甚至會導致社會發展的停滯,社會和諧穩定。不僅僅個人會在謠言面前無力判斷,大型的組織機構也常感力所不逮,促使整個社會迫切需要一種可以幫助辨明謠言的工具。
近年來,識別謠言的方法主要分為兩種,一種是依賴關鍵詞詞袋的方法,另一種是使用傳統統計分類方法。對于依賴關鍵詞詞袋的方法,主要是依賴情感極性詞來識別謠言,而且該方法極度依賴大型的詞庫和分詞技術,需要花費大量的人力物力去搜集、維護不同行業、不同領域的專用術語、專有名詞,投入產出比極低。使用傳統統計模型,例如樸素貝葉斯、決策樹等,這些方法都需要先驗經驗,或者評判規則,先驗經驗以及評判規則同樣需要大量的專業人士花費大量的時間與精力進行研究與制定。而且,上述方法在面對越來越復雜和隱蔽的陳述性謠言時無法正確判斷(例如:紫菜是塑料做的)。
比如,“流感疫苗無法提前預防流感,無需接種”是謠言。雖然流感病毒變異的速度很快,但是流感疫苗仍然具有降低患病率的作用,接種是有意義的。傳統的分類方法很難應對這種中性,沒有特別關鍵詞的情況。更有甚者,當新詞出現時,如“伊波拉無法預防,無需接種流感疫苗”,如果“伊波拉”沒有在詞庫中,則很難判斷這個消息是謠言。
發明內容
本發明所要解決的技術問題在于,提供一種謠言識別方法,以解決現有的謠言識別方法不能精確的對謠言進行識別的問題。
通過對大量謠言樣本數據的分析,謠言存在若干明顯的特征,包括行文風格偏愛使用“嘩眾取寵”的感嘆詞(例如:震驚),文章內容與常識存在很大的邏輯差異,用一些事實刻意隱藏謬誤,變化頻率很高等。本發明提出了一種句子級別的謠言判別模型系統,可以捕獲到文本中情感信息和以及文本上下文邏輯兩方面的信息,同時模型是句子級別的,可以準確定位大篇幅文章中的謬誤部分;此外,由于文章的情感極性、邏輯規則是不會隨著時間的推移而改變,所以還發明了一種基于用戶分類和加權的人機協作反饋系統,可以隨著時間進行模型的有效優化。
為解決上述技術問題,本發明所采用的技術方案如下:
一種謠言識別方法,所述方法包括:
抓取有標記的文本內容,對文本進行清洗整理,并分割成句,將文本內容以句為單位存儲到數據庫中;
依據中文分詞詞庫,對分割成句的文本內容進行分詞處理,將分詞后的內容再次整理,變成模型可讀、規范的形式作為模型的輸入內容;
將分詞后的內容通過模型進行高緯度向量化關聯映射,再將詞向量進行權重上的組合,形成句子向量、段落向量或者文章向量,從模型輸出;
將處理后的訓練語料信息輸入到分類器模型進行訓練,并輸出判定結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于眾安信息技術服務有限公司,未經眾安信息技術服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810224475.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多媒體信息投放系統和方法
- 下一篇:一種視頻排序校準方法和裝置





