[發明專利]一種面向食品安全輿情的字詞雙維度微博謠言識別方法有效
| 申請號: | 202110050517.1 | 申請日: | 2021-01-14 |
| 公開(公告)號: | CN112766359B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 左敏;何思宇;張青川;顏文婧 | 申請(專利權)人: | 北京工商大學 |
| 主分類號: | G06F18/241 | 分類號: | G06F18/241;G06F16/951;G06F40/284;G06N3/047;G06N3/0442;G06N3/08 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 安麗 |
| 地址: | 100048*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 食品安全 輿情 字詞 維度 謠言 識別 方法 | ||
1.一種面向食品安全輿情的字詞雙維度微博謠言識別方法,其特征在于,包括以下步驟:
步驟1、對從互聯網上網絡爬蟲獲取到的原始文本數據進行預處理,包括去除原始文本數據中含有的特殊符號和停用詞;
步驟2、在開放域word?embedding資源庫基礎上,構建食品安全領域word?embedding資源庫,并進行增量訓練;
步驟3、構建基于融合位置感知注意力機制的雙向長短時記憶網絡作為獲得文本詞向量維度文本特征的神經網絡模型端,具體實現為:首先通過結合步驟2構建的領域詞庫判斷領域關鍵詞語義角色和位置,生成基于位置感知的注意力,然后將文本語料經過詞嵌入生成的詞向量輸入BLSTM模型,將詞向量參與中間隱藏層的計算,再經過隱層計算的向量在注意力機制的影響下進一步計算得到詞語級別文本語義特征;
步驟4、獨立于步驟3構建的BLSTM模型,構建BERT神經網絡模型作為獲得文本字向量維度文本特征的神經網絡模型端,?BERT模型通過查詢字向量表將文本中的每個字轉換為向量,作為模型輸入;模型輸出則是輸入各字對應的融合全文語義信息后的向量表示;
步驟5、使用SoftMax作為分類器,語料經BERT與BLSTM雙路神經網絡處理輸出后,在連接層合并步驟3中得到的詞維度文本特征信息與步驟4中得到的字維度文本特征信息,然后輸入分類器進行分類識別,得到最終的謠言分類識別結果;
所述步驟3中,訓練基于融合位置感知注意力機制的雙向長短時記憶網絡模型作為詞維度文本特征提取模型,將微博文本語料轉換為向量表示,作為網絡的輸入,訓練神經網絡模型,利用融合位置注意力感知機制的雙向長短時記憶網絡搭建構成整體模型的雙路網絡模型之一,通過已有的微博文本語料訓練得到本路輸出結果,即詞維度文本特征向量表示;
所述步驟4中,訓練BERT網絡模型作為字維度文本特征提取模型,模型輸入除了字向量(Token?Embedding),還包含兩部分,其一是分割嵌入(Segment?Embedding):該向量的取值在模型訓練過程中自動學習,用于刻畫文本的全局語義信息,并與單字的語義信息相融合;其二是位置嵌入(Position?Embedding):由于出現在文本不同位置的字所攜帶的語義信息存在差異,BERT模型對不同位置的字分別附加一個不同的向量以作區分;最后,BERT模型將Token?Embedding、Segment?Embedding和Position?Embedding的加和作為句向量,得到整體模型的雙路網絡輸出之一,即字維度文本特征向量表示。
2.根據權利要求1所述的面向食品安全輿情的字詞雙維度微博謠言識別方法,其特征在于:所述步驟2中,在開放域word?embedding資源庫基礎上,結合skip-gram模型和字詞語義表示,構建食品安全領域word?embedding資源庫,并在此基礎上進行語料擴充,增加公開的百度百科語料,并從網絡爬取食品領域詞匯百科、新聞語料,進行詞向量模型的訓練,此后每隔一段時間,當積累一定的食品安全輿情語料時,對詞向量模型再進行增量訓練。
3.根據權利要求1所述的面向食品安全輿情的字詞雙維度微博謠言識別方法,其特征在于:?BERT網絡作為預訓練模型,在文本分類任務中,BERT網絡中的Token?Embedding層對于輸入要求句子頭部標記為?[CLS],多句話之間標記[SEP],Segment?Embedding和Position?Embedding層利用了預訓練好的模型參數參與計算。
4.根據權利要求1所述的面向食品安全輿情的字詞雙維度微博謠言識別方法,其特征在于:所述步驟5中,訓練兩個神經網絡模型,包括提取詞維度文本特征向量的融合位置感知注意力機制的雙向長短時記憶網絡模型,以及用于提取字維度文本特征向量的BERT模型;在開始訓練時,隨機初始化權重,在通過神經網絡計算得到雙路網絡計算結果后,通過連接層對雙路網絡計算結果進行連接,使用SoftMax函數作為損失函數,將神經網絡的數值型輸出轉化為分類的概率型輸出;在訓練過程中為避免過擬合,設置一定概率的Dropout,即在模型訓練過程中隨機歸零隱含層的部分權重或輸出,從而降低各節點間的相互依賴,提高模型泛化性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工商大學,未經北京工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110050517.1/1.html,轉載請聲明來源鉆瓜專利網。





