[發明專利]文本信息的識別方法、裝置及服務器、存儲介質在審
| 申請號: | 201911304665.0 | 申請日: | 2019-12-17 |
| 公開(公告)號: | CN112989810A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 周侃;郭慶 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/151 |
| 代理公司: | 北京先進知識產權代理有限公司 11648 | 代理人: | 邵勁草 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 信息 識別 方法 裝置 服務器 存儲 介質 | ||
本公開關于一種文本信息的識別方法、裝置及服務器、存儲介質,涉及文本處理領域。首先通過對待識別文本執行文本類型的轉換處理,以得到相應的至少一種轉換后的文本;對待識別文本、至少一種轉換后的文本分別進行內容識別,以獲得相應的各第一識別結果;基于各第一識別結果,確定待識別文本中是否存在異常內容,豐富了被識別文本的內容,從而對存在異常內容的待識別文本的識別的精確度更高,即便是在社交應用中對存在異常內容的待識別文本進行轉換變化,文本識別模型也能識別出轉換變化后的待識別文本中存在異常內容,以便對存在異常內容的待識別樣本進行精準屏蔽。
技術領域
本公開涉及文本處理領域,尤其涉及一種文本信息的識別方法、裝置及服務器、存儲介質。
背景技術
隨著移動互聯網的發展,安裝于用戶終端的一些社交應用的發展有著長足的進步和發展,多數社交應用包括了編輯個人簡介、發表個人動態和發表評論的等功能,以便讓用戶從不同的角度向他人展示自己。但是,有的用戶為了增長關注度或獲取不法利益等目的,其個人簡介、發表個人動態和發表評論等描述違反道德法律,給網絡環境造成了不良影響,因此,需要對社交應用中的違規的描述進行屏蔽。
相關技術中,通常建立有建立違規詞庫,通過將社交應用中的描述與違規詞庫中的內容進行匹配,確定并屏蔽違規文本。但是如果違規詞庫中的內容不夠豐富,或者如果用戶掌握違規詞庫中的具體內容,對社交應用中的描述進行轉換變化,導致繞過與違規詞庫中的內容匹配,因而,上述對社交應用中的違規描述屏蔽不夠精確。
發明內容
本公開提供一種文本信息的識別方法、裝置及服務器、存儲介質,以至少解決相關技術的對社交應用中的違規描述屏蔽不夠精確的問題。本公開的技術方案如下:
根據本公開實施例的第一方面,提供一種文本信息的識別方法,包括:
獲取待識別文本;
對所述待識別文本執行文本類型的轉換處理,以得到相應的至少一種轉換后的文本;
對所述待識別文本、所述至少一種轉換后的文本分別進行內容識別,以獲得相應的各第一識別結果,其中,所述第一識別結果用于表示各對應文本中是否存在異常內容;
基于各所述第一識別結果,確定所述待識別文本中是否存在異常內容。
可選地,所述基于各所述第一識別結果,確定所述待識別文本中是否存在異常內容包括:
如果各第一識別結果中至少有一個第一識別結果表征對應的文本中存在異常內容,則確定出所述待識別文本中存在異常內容。
可選地,所述對所述待識別文本執行文本類型的轉換處理,以得到相應的至少一種轉換后的文本,包括:
若所述文本的類型包括文字類型,則將文字類型的所述文本轉換為拼音;
若所述文本的類型包括拼音類型,則將拼音類型的所述文本轉換為文字。
可選地,所述將對所述待識別文本、所述至少一種轉換后的文本分別進行內容識別,以獲得相應的各第一識別結果包括:經文字識別模型對文字類型的文本進行識別得到其中一個第一識別結果,將經拼音識別模型對拼音類型的文本進行識別得到另一個第一識別結果,
其中,所述文字識別模型為預先根據攜帶類別標識的歷史文字樣本、攜帶類別標識的歷史文字樣本的對抗文本構成的訓練樣本集訓練而成,且每個歷史文字樣本的類別標識與其對抗文本的類別標識相同,所述拼音識別模型為預先根據攜帶類別標識的歷史拼音樣本、攜帶類別標識的歷史拼音樣本的對抗文本構成的訓練樣本集訓練而成,且每個歷史拼音樣本的類別標識與其對抗文本的類別標識相同。
可選地,所述方法還包括:
如果確定所述待識別文本中不存在異常內容,則經文字嵌入模型將文字類型的文本處理為文本向量以及經拼音嵌入模型將拼音類型的文本處理為文本向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911304665.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種跨云管理平臺的資源管理方法
- 下一篇:一種拍打機芯聯軸限位裝置及拍打機芯
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





