[發明專利]一種面向互聯網數據的食品安全風險識別方法及系統在審
| 申請號: | 202110633085.7 | 申請日: | 2021-06-07 |
| 公開(公告)號: | CN113360782A | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 宋英華;余惠琴;呂偉;呂貝貝;李雨航;周雯楠;韓業凡;黃廣琛 | 申請(專利權)人: | 武漢理工大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/951;G06Q10/06;G06Q50/26;G06F40/216;G06F40/289;G06F40/242 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 肖明洲 |
| 地址: | 430070 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 互聯網 數據 食品安全 風險 識別 方法 系統 | ||
本發明公開了一種面向互聯網數據的食品安全風險識別方法及系統,基于食品安全事件定義對從互聯網上獲取的食品安全數據進行篩選;根據篩選后的食品安全數據構建食品安全事件文本語料庫;對食品安全事件文本語料庫進行預處理;根據預處理后的食品安全事件文本分詞語料庫構建食品安全領域詞典和自定義字典;通過計算食品安全事件文本分詞語料庫中詞的逆文檔頻率構建自定義IDF字典;從互聯網上爬取待識別食品安全事件文本;運用TF?IDF算法提取待識別食品安全事件文本關鍵詞;判斷是否為食品安全事件。本發明能夠實時、動態、快速、精準識別互聯網上報道的食品安全風險,及時采取防控措施,避免風險事件的發生或降低風險事件的影響。
技術領域
本發明涉及人工智能、數據挖掘和食品安全風險識別技術領域,具體涉及一種面向互聯網數據的食品安全風險識別方法及系統。
背景技術
隨著食品產業的發展,食品種類越來越豐富,新的食品安全風險不斷涌現,嚴重危害著人民群眾的身體健康和生命安全,影響著國家經濟的發展和社會的穩定。食品安全事件屢屢發生,2006—2015年我國主流網絡媒體報道全國31個省區共發生245862起食品安全事件。全球范圍內,食源性和水源性疾病導致180萬人喪生。快速識別食品安全風險對防止食品安全事件的發生及其所帶來的影響具有重要意義。
現有的食品安全風險識別方法主要包括實地調研法、風險監測系統和食品安全事件案例分析法。其中,實地調研法耗時長、成本高,且局限于被調查對象的食品安全知識掌握程度;風險監測系統主要用于在食品安全事件發生后各食品安全利益相關者的風險溝通;食品安全事件案例分析法是基于發生的食品安全事件案例,運用系統思維分析引發食品安全事件的可能風險。然而,這些方法在食品安全風險的識別上存在延時性,不利于食品安全風險的快速處置,新的食品安全風險識別方法的研究成為國內外研究的焦點。
隨著網絡的普及,網絡新聞報道成為公眾獲取和發布食品信息的重要窗口,利用數據挖掘方法能夠從這些數據中提取到有價值的信息,使食品安全風險的快速精準識別成為可能。對互聯網上的數據進行實時動態爬取,可動態監測食品安全風險的發生,然而難點在于如何判定爬取的互聯網數據是否發生食品安全風險。
發明內容
本發明的目的是提供一種面向互聯網數據的食品安全風險識別技術,能夠動態監測互聯網數據,快速識別互聯網上發布的食品安全事件報道。
本發明的方法所采用的技術方案是:一種面向互聯網數據的食品安全風險識別方法,包括以下步驟:
步驟1:定義食品安全事件,對從互聯網上獲取的食品安全數據依次判斷所述食品安全數據是否為食品安全事件文本,若是,則將所述食品安全數據的正文作為一條語料添加到食品安全事件文本語料庫中;
所述食品安全事件,是指違反食品安全標準規定且被污染食品流入到消費者手中的事件;所述食品安全標準包括食品安全國家標準、食品安全地方標準和食品安全行業標準;所述被污染食品是指受到污染因素污染的食品,污染因素包括物理污染因素、化學污染因素、生物污染因素、食品添加劑和其他污染因素;
步驟2:構建食品安全事件文本語料庫;
步驟3:通過去除非中文字符、分詞、去停用詞操作對所述食品安全事件文本語料庫進行預處理,獲得食品安全事件文本分詞語料庫;
步驟4:根據食品安全事件文本分詞語料庫構建食品安全領域詞典和自定義字典,所述食品安全領域詞典包括食品名稱詞典和食品污染因素詞典;所述食品名稱詞典,由食品安全領域的專業名稱及從食品安全事件文本語料庫中提取出的食品名稱描述組成;所述自定義字典是對食品安全事件文本分詞語料庫中不合理的分詞結果進行修正而自定義的字典;
步驟5:通過計算食品安全事件文本分詞語料庫中詞的逆文檔頻率(IDF值),構建自定義IDF字典;所述逆文檔頻率表示一個詞普遍重要性的度量,先對語料庫的文檔總數除以語料庫中包含該詞語的文檔數量得到商,然后對商取對數;所述自定義IDF字典的鍵是詞語,鍵值是詞語的IDF值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢理工大學,未經武漢理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110633085.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電芯翻轉機構及翻轉設備
- 下一篇:一種道路交通設施可達指數的計算方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





