[發(fā)明專利]一種文本標識的方法、裝置、電子設備及存儲介質在審
| 申請?zhí)枺?/td> | 201811377862.0 | 申請日: | 2018-11-19 |
| 公開(公告)號: | CN109471920A | 公開(公告)日: | 2019-03-15 |
| 發(fā)明(設計)人: | 萬月亮;火一莽;任眾 | 申請(專利權)人: | 北京銳安科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100044 北京市海淀區(qū)西小口*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標識文本 垃圾文本 判別模型 存儲介質 電子設備 過濾規(guī)則 文本標識 預設 海量文本數(shù)據 數(shù)據清洗 核查 垃圾 更新 | ||
1.一種文本標識的方法,其特征在于,所述方法包括:
基于預設的判別模型確定待標識文本的初始標識;
基于所述初始標識情況和預設的過濾規(guī)則確定所述待標識文本的最終標識;
其中,所述標識包括:垃圾文本或非垃圾文本。
2.根據權利要求1所述的方法,其特征在于,基于所述初始標識和預設的過濾規(guī)則確定所述待標識文本的最終標識,包括:
如果所述初始標識為非垃圾文本,則基于預設的黑名單規(guī)則確定所述待標識文本的最終標識;
其中,所述預設的黑名單規(guī)則包括:黑名單詞庫規(guī)則、黑名單域名規(guī)則和黑名單正則規(guī)則中的一個或多個。
3.根據權利要求1所述的方法,其特征在于,基于所述初始標識和預設的過濾規(guī)則確定所述待標識文本的最終標識,包括:
如果所述初始標識為垃圾文本,則基于預設的白名單詞庫規(guī)則確定所述待標識文本的最終標識。
4.根據權利要求2所述的方法,其特征在于,基于預設的黑名單規(guī)則確定所述待標識文本的最終標識,包括:
如果基于預設的黑名單規(guī)則確定所述待標識文本為垃圾文本,則基于預設的白名單詞庫規(guī)則確定所述待標識文本的最終標識。
5.根據權利要求1-4中任一所述的方法,其特征在于,在基于預設的垃圾判別模型確定待標識文本的初始標識之前,所述方法還包括:
利用預設的分詞規(guī)則對所述待標識文本進行分詞;
相應的,基于預設的垃圾判別模型確定待標識文本的初始標識,包括:
基于分詞結果和預設的判別模型確定待標識文本的初始標識。
6.一種文本標識的裝置,其特征在于,包括:
初始標識模塊,用于基于預設的判別模型確定待標識文本的初始標識;
最終標識模塊,用于基于所述初始標識和預設的過濾規(guī)則確定所述待標識文本的最終標識;
其中,所述標識包括:垃圾文本或非垃圾文本。
7.根據權利要求6所述的裝置,其特征在于,所述最終標識模塊,具體用于:如果所述初始標識為非垃圾文本,則基于預設的黑名單規(guī)則確定所述待標識文本的最終標識;
其中,所述預設的黑名單規(guī)則包括:黑名單詞庫規(guī)則、黑名單域名規(guī)則和黑名單正則規(guī)則中的一個或多個。
8.根據權利要求6所述的裝置,其特征在于,所述最終標識模塊,還具體用于:如果所述初始標識為垃圾文本,則基于預設的白名單詞庫規(guī)則確定所述待標識文本的最終標識。
9.一種電子設備,其特征在于,所述電子設備包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)如權利要求1-5中任一所述的文本標識的方法。
10.一種包含計算機可執(zhí)行指令的存儲介質,所述計算機可執(zhí)行指令在由計算機處理器執(zhí)行時用于執(zhí)行如權利要求1-5中任一所述的文本標識的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳安科技有限公司,未經北京銳安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811377862.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:零代詞消解方法及裝置
- 下一篇:一種文本查重方法、裝置及設備





