[發明專利]信息處理方法和裝置在審
| 申請號: | 201710464769.2 | 申請日: | 2017-06-19 |
| 公開(公告)號: | CN109145284A | 公開(公告)日: | 2019-01-04 |
| 發明(設計)人: | 李大霞 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06Q50/00 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司 11134 | 代理人: | 宋子良 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 號碼特征 特征集合 方法和裝置 集合 信息處理 原始文本 標識信息 方法識別 結果文本 聯系方式 文本廣告 字母組合 關聯 | ||
本發明公開了一種信息處理方法和裝置。其中,該方法包括:對原始文本進行識別,獲取號碼特征集合與字母特征集合,其中,號碼特征集合包含與聯系方式關聯的標識信息,字母特征集合包含原始文本中出現的文字對應的字母組合;對號碼特征集合與字母特征集合進行組合,得到結果文本。本發明解決了現有技術中識別文本廣告的方法識別功能弱的技術問題。
技術領域
本發明涉及數據處理領域,具體而言,涉及一種信息處理方法和裝置。
背景技術
文本廣告是基于文本的形式進行廣告。文本廣告通常出現在熱門新聞的評論中,或即時通信軟件的聊天群中,出現的形式通常為產品名稱及聯系方式,例如:xxx增高產品,需要請加vx2516372819,為了攔截這些文本廣告,現有技術的做法通常為采用正則表達式的方式,若文本中包含一定位數的數字、字母數字,或者以1開頭的11位數字以及前后包含“加”、“vx”、“qq”等提示詞,則認為是廣告;否則認為是正常信息。
但正則表達式識別只能識別包含一定位數的數字或者字母數字組合或者以1開頭的11位數字以及前后包含“加”、“vx”、“qq”等提示詞的廣告,識別模式單一,對于變異的文本廣告,諸如:“家薇”(諧音:“加微”信)、“味辛”(諧音“微信”)這種變異形式,無法進行窮舉,難以達到識別的目的。
因此,目前現有技術所使用的識別文本廣告的方式手段單一、無法對抗變異的文本廣告、且識別范圍小等問題,從而不能有效凈化內容化的平臺環境,嚴重影響用戶的信息安全。
針對現有技術中識別文本廣告的方法識別功能弱的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種信息處理方法和裝置,以至少解決現有技術中識別文本廣告的方法識別功能弱的技術問題。
根據本發明實施例的一個方面,提供了一種信息處理方法,包括:對原始文本進行識別,獲取號碼特征集合與字母特征集合,其中,號碼特征集合包含與聯系方式關聯的標識信息,字母特征集合包含原始文本中出現的文字對應的字母組合;對號碼特征集合與字母特征集合進行組合,得到結果文本。
根據本發明實施例的另一方面,還提供了一種信息處理裝置,包括:識別模塊,用于對原始文本進行識別,獲取號碼特征集合與字母特征集合,其中,號碼特征集合包含與聯系方式關聯的標識信息,字母特征集合包含原始文本中出現的文字對應的字母組合;獲取模塊,用于對號碼特征集合與字母特征集合進行組合,得到結果文本。
根據本發明實施例的另一方面,還提供了一種存儲介質,存儲介質包括存儲的程序,其中,在程序運行時控制存儲介質所在設備執行上述的信息處理方法。
根據本發明實施例的另一方面,還提供了一種處理器,處理器用于運行程序,其中,程序運行時執行上述的信息處理方法。
根據本發明實施例的另一方面,還提供了一種系統,包括:處理器;以及存儲器,與處理器連接,用于為處理器提供執行以下處理過程的指令:對原始文本進行識別,獲取號碼特征集合與字母特征集合,其中,號碼特征集合包含與聯系方式關聯的標識信息,字母特征集合包含原始文本中出現的文字對應的字母組合;對號碼特征集合與字母特征集合進行組合。
在本發明實施例中,本申請上述實施例對原始文本進行識別,確定號碼特征結合和字母特征集合,再根據號碼特征集合以及字母特征集合進行組合,得到結果文本。由于垃圾信息通常會通過變異等方式避開正則表達式所規定的邏輯公式,因此不能被現有技術中的垃圾信息識別方法所識別,而本申請并不使用正則表達式對原始文本進行直接識別,而是生成原始申請文本對應的結果文本,由于結果文本由原始文本的號碼特征集合和字母特征集合構成,因此即使對垃圾信息進行了變異處理,但垃圾信息的特征仍然會通過號碼特征集合或字母特征集合體現在結果文本中,從而被識別出來。
由此,本申請上述方案解決了現有技術中識別文本廣告的方法識別功能弱的技術問題,達到了識別對變異后的垃圾信息的技術效果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710464769.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種人工智能的敏感信息檢測方法
- 下一篇:短語提取文本分析方法和系統





