[發明專利]文本內容增強識別方法、裝置、設備以及存儲介質在審
| 申請號: | 202210633245.2 | 申請日: | 2022-06-06 |
| 公開(公告)號: | CN115033660A | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 劉玉忠;韓超;孫磊;蔣俊君;陳玥霖 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/903;G06F16/953;G06F40/247;G06K9/62;G06Q50/00 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 羅嵐 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 內容 增強 識別 方法 裝置 設備 以及 存儲 介質 | ||
1.一種文本內容增強識別方法,包括:
獲取用戶生成內容;
基于多種類變體詞詞表和目標內容文本庫,對所述用戶生成內容進行識別增強處理,以得到識別增強處理結果;
響應于所述識別增強處理結果為所述用戶生成內容的變體文本存在于所述目標內容文本庫,確定所述用戶生成內容中包含目標內容。
2.如權利要求1所述的方法,其中,所述基于多種類變體詞詞表和目標內容文本庫,對所述用戶生成內容進行識別增強處理,以得到識別增強處理結果,包括:
基于多種類變體詞詞表對所述用戶生成內容進行變體轉換,以得到所述用戶生成內容的變體文本;
采用文本匹配方式和/或正則表達式,檢測所述用戶生成內容的變體文本是否存在于所述目標內容文本庫,并根據檢測結果確定識別增強處理結果。
3.如權利要求2所述的方法,其中,所述基于多種類變體詞詞表對所述用戶生成內容進行變體轉換,以得到所述用戶生成內容的變體文本,包括:
基于所述多種類變體詞詞表之中包含的不同種類變體字符與常規字符間的映射關系,從所述多種類變體詞詞表中找出與所述用戶生成內容中的字符存在映射關系的常規字符;
將所述用戶生成內容中存在所述映射關系的字符替換成對應的常規字符,以得到所述用戶生成內容的變體文本。
4.如權利要求1至3中任一項所述的方法,還包括:
響應于所述識別增強處理結果為所述用戶生成內容的變體文本未存在于所述目標內容文本庫,基于預設的文本識別模型對所述用戶生成內容的變體文本進行預測,以確定所述用戶生成內容中是否包含目標內容。
5.如權利要求4所述的方法,還包括:
獲取經過所述文本識別模型預測的目標用戶生成內容;
對所述目標用戶生成內容進行驗證,以確定所述文本識別模型對所述目標用戶生成內容的預測結果是否正確;
響應于所述文本識別模型對所述目標用戶生成內容的預測結果不正確,分析所述目標用戶生成內容,并根據分析結果擴展所述多種類變體詞詞表和/或目標內容文本庫。
6.一種文本內容增強識別裝置,包括:
第一獲取模塊,用于獲取用戶生成內容;
第一處理模塊,用于基于多種類變體詞詞表和目標內容文本庫,對所述用戶生成內容進行識別增強處理,以得到識別增強處理結果;
第二處理模塊,用于響應于所述識別增強處理結果為所述用戶生成內容的變體文本存在于所述目標內容文本庫,確定所述用戶生成內容中包含目標內容。
7.如權利要求6所述的裝置,其中,所述第一處理模塊具體用于:
基于多種類變體詞詞表對所述用戶生成內容進行變體轉換,以得到所述用戶生成內容的變體文本;
采用文本匹配方式和/或正則表達式,檢測所述用戶生成內容的變體文本是否存在于所述目標內容文本庫,并根據檢測結果確定識別增強處理結果。
8.如權利要求7所述的裝置,其中,所述第一處理模塊具體用于:
基于所述多種類變體詞詞表之中包含的不同種類變體字符與常規字符間的映射關系,從所述多種類變體詞詞表中找出與所述用戶生成內容中的字符存在映射關系的常規字符;
將所述用戶生成內容中存在所述映射關系的字符替換成對應的常規字符,以得到所述用戶生成內容的變體文本。
9.如權利要求6至8中任一項所述的裝置,還包括:
第三處理模塊,用于響應于所述識別增強處理結果為所述用戶生成內容的變體文本未存在于所述目標內容文本庫,基于預設的文本識別模型對所述用戶生成內容的變體文本進行預測,以確定所述用戶生成內容中是否包含目標內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210633245.2/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





