[發(fā)明專利]文本信息的識別方法、裝置及服務器、存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201911304665.0 | 申請日: | 2019-12-17 |
| 公開(公告)號: | CN112989810A | 公開(公告)日: | 2021-06-18 |
| 發(fā)明(設計)人: | 周侃;郭慶 | 申請(專利權)人: | 北京達佳互聯(lián)信息技術有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/151 |
| 代理公司: | 北京先進知識產(chǎn)權代理有限公司 11648 | 代理人: | 邵勁草 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 信息 識別 方法 裝置 服務器 存儲 介質(zhì) | ||
1.一種文本信息的識別方法,其特征在于,所述方法包括:
獲取待識別文本;
對所述待識別文本執(zhí)行文本類型的轉換處理,以得到相應的至少一種轉換后的文本;
對所述待識別文本、所述至少一種轉換后的文本分別進行內(nèi)容識別,以獲得相應的各第一識別結果,其中,所述第一識別結果用于表示各對應文本中是否存在異常內(nèi)容;
基于各所述第一識別結果,確定所述待識別文本中是否存在異常內(nèi)容。
2.根據(jù)權利要求1所述的方法,其特征在于,所述基于各所述第一識別結果,確定所述待識別文本中是否存在異常內(nèi)容包括:
如果各第一識別結果中至少有一個第一識別結果表征對應的文本中存在異常內(nèi)容,則確定出所述待識別文本中存在異常內(nèi)容。
3.根據(jù)權利要求1所述的方法,其特征在于,所述對所述待識別文本執(zhí)行文本類型的轉換處理,以得到相應的至少一種轉換后的文本,包括:
若所述文本的類型包括文字類型,則將文字類型的所述文本轉換為拼音;
若所述文本的類型包括拼音類型,則將拼音類型的所述文本轉換為文字。
4.根據(jù)權利要求3所述的方法,其特征在于,所述將對所述待識別文本、所述至少一種轉換后的文本分別進行內(nèi)容識別,以獲得相應的各第一識別結果包括:經(jīng)文字識別模型對文字類型的文本進行識別得到其中一個第一識別結果,將經(jīng)拼音識別模型對拼音類型的文本進行識別得到另一個第一識別結果,
其中,所述文字識別模型為預先根據(jù)攜帶類別標識的歷史文字樣本、攜帶類別標識的歷史文字樣本的對抗文本構成的訓練樣本集訓練而成,且每個歷史文字樣本的類別標識與其對抗文本的類別標識相同,所述拼音識別模型為預先根據(jù)攜帶類別標識的歷史拼音樣本、攜帶類別標識的歷史拼音樣本的對抗文本構成的訓練樣本集訓練而成,且每個歷史拼音樣本的類別標識與其對抗文本的類別標識相同。
5.根據(jù)權利要求1所述的方法,其特征在于,所述方法還包括:
如果確定所述待識別文本中不存在異常內(nèi)容,則經(jīng)文字嵌入模型將文字類型的文本處理為文本向量以及經(jīng)拼音嵌入模型將拼音類型的文本處理為文本向量;
確定處理得到的文本向量分別與預設的負類文本向量庫中的多個歷史負類文本向量的相似度,其中,所述歷史負類文本向量為預先被進行內(nèi)容識別確定不存在異常內(nèi)容而實際存在異常內(nèi)容的文本向量;
根據(jù)得到的多個相似度,確定針對所述待識別文本的第二識別結果,其中,所述第二識別結果用于表示所述待識別文本中是否存在異常內(nèi)容。
6.根據(jù)權利要求5所述的方法,其特征在于,如果所述第二識別結果表征所述待識別文本中不存在異常內(nèi)容而所述待識別文本的實際存在異常內(nèi)容時,將所述待識別文本的文本向量添加入預設的歷史負類文本向量庫中。
7.根據(jù)權利要求1所述的方法,其特征在于,所述方法還包括:
如果確定出所述待識別文本中存在異常內(nèi)容,則對所述待識別文本進行屏蔽。
8.一種文本信息的識別裝置,其特征在于,所述裝置包括:
信息獲取單元,被配置成執(zhí)行獲取待識別文本;
文本轉換單元,被配置成執(zhí)行對所述待識別文本執(zhí)行文本類型的轉換處理,以得到相應的至少一種轉換后的文本;
文本識別單元,被配置成執(zhí)行對所述待識別文本、所述至少一種轉換后的文本分別進行內(nèi)容識別,以獲得相應的各第一識別結果,其中,所述第一識別結果用于表示各對應文本中是否存在異常內(nèi)容;
結果確定單元,被配置成執(zhí)行基于各所述第一識別結果,確定所述待識別文本中是否存在異常內(nèi)容。
9.一種服務器,其特征在于,包括:
處理器;
用于存儲所述處理器可執(zhí)行指令的存儲器;
其中,所述處理器被配置為執(zhí)行所述指令,以實現(xiàn)如權利要求1至7中任一項所述的文本信息的識別方法。
10.一種存儲介質(zhì),當所述存儲介質(zhì)中的指令由服務器的處理器執(zhí)行時,使得服務器能夠執(zhí)行如權利要求1至7中任一項所述的文本信息的識別方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯(lián)信息技術有限公司,未經(jīng)北京達佳互聯(lián)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911304665.0/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





