[發明專利]文本內容增強識別方法、裝置、設備以及存儲介質在審
| 申請號: | 202210633245.2 | 申請日: | 2022-06-06 |
| 公開(公告)號: | CN115033660A | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 劉玉忠;韓超;孫磊;蔣俊君;陳玥霖 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/903;G06F16/953;G06F40/247;G06K9/62;G06Q50/00 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 羅嵐 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 內容 增強 識別 方法 裝置 設備 以及 存儲 介質 | ||
本申請公開了一種文本內容增強識別方法、裝置、設備以及存儲介質,涉及數據處理技術領域,尤其涉及大數據和人工智能技術領域。具體實現方案為:獲取用戶生成內容;基于多種類變體詞詞表和目標內容文本庫,對用戶生成內容進行識別增強處理,以得到識別增強處理結果;響應于識別增強處理結果為用戶生成內容的變體文本存在于目標內容文本庫,確定用戶生成內容中包含目標內容。本申請的技術方案可以基于多種類變體詞詞表和目標內容文本庫,對獲取用戶生成內容進行識別增強處理,以確定用戶生成內容中是否包含目標內容,從而提高對包含目標內容的文本內容的識別能力。
技術領域
本申請涉及數據處理技術領域,尤其涉及大數據和人工智能技術領域,特別涉及一種文本內容增強識別方法、裝置、設備以及存儲介質。
背景技術
在數字化時代背景下,網絡社區成為用戶進行知識交流與獲取的重要平臺。由于存在多源的內容生產場景,導致社區內容的發布存在不可控因素,廣告營銷、惡意灌水及其他違反相關法律法規的內容在網絡社區中頻繁出現,對網絡社區平臺的合規運營以及內容質量的保障都帶來非常大的挑戰。
發明內容
本申請提供了一種文本內容增強識別方法、裝置、設備以及存儲介質。
根據本申請的第一方面,提供了一種文本內容增強識別方法,包括:獲取用戶生成內容;基于多種類變體詞詞表和目標內容文本庫,對所述用戶生成內容進行識別增強處理,以得到識別增強處理結果;響應于所述識別增強處理結果為所述用戶生成內容的變體文本存在于所述目標內容文本庫,確定所述用戶生成內容中包含目標內容。
在一種實現方式中,所述基于多種類變體詞詞表和目標內容文本庫,對所述用戶生成內容進行識別增強處理,以得到識別增強處理結果,包括:基于多種類變體詞詞表對所述用戶生成內容進行變體轉換,以得到所述用戶生成內容的變體文本;采用文本匹配方式和/或正則表達式,檢測所述用戶生成內容的變體文本是否存在于所述目標內容文本庫,并根據檢測結果確定識別增強處理結果。
在一種可選地實現方式中,所述基于多種類變體詞詞表對所述用戶生成內容進行變體轉換,以得到所述用戶生成內容的變體文本,包括:基于所述多種類變體詞詞表之中包含的不同種類變體字符與常規字符間的映射關系,從所述多種類變體詞詞表中找出與所述用戶生成內容中的字符存在映射關系的常規字符;將所述用戶生成內容中存在所述映射關系的字符替換成對應的常規字符,以得到所述用戶生成內容的變體文本。
在一種實現方式中,所述方法還包括:響應于所述識別增強處理結果為所述用戶生成內容的變體文本未存在于所述目標內容文本庫,基于預設的文本識別模型對所述用戶生成內容的變體文本進行預測,以確定所述用戶生成內容中是否包含目標內容。
在一種可選地實現方式中,所述方法還包括:獲取經過所述文本識別模型預測的目標用戶生成內容;對所述目標用戶生成內容進行驗證,以確定所述文本識別模型對所述目標用戶生成內容的預測結果是否正確;響應于所述文本識別模型對所述目標用戶生成內容的預測結果不正確,分析所述目標用戶生成內容,并根據分析結果擴展所述多種類變體詞詞表和/或目標內容文本庫。
根據本申請的第二方面,提供了一種文本內容增強識別裝置,包括:第一獲取模塊,用于獲取用戶生成內容;第一處理模塊,用于基于多種類變體詞詞表和目標內容文本庫,對所述用戶生成內容進行識別增強處理,以得到識別增強處理結果;第二處理模塊,用于響應于所述識別增強處理結果為所述用戶生成內容的變體文本存在于所述目標內容文本庫,確定所述用戶生成內容中包含目標內容。
在一種實現方式中,所述第一處理模塊具體用于:基于多種類變體詞詞表對所述用戶生成內容進行變體轉換,以得到所述用戶生成內容的變體文本;采用文本匹配方式和/或正則表達式,檢測所述用戶生成內容的變體文本是否存在于所述目標內容文本庫,并根據檢測結果確定識別增強處理結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210633245.2/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





