[發明專利]信息處理方法和裝置在審
| 申請號: | 201710464769.2 | 申請日: | 2017-06-19 |
| 公開(公告)號: | CN109145284A | 公開(公告)日: | 2019-01-04 |
| 發明(設計)人: | 李大霞 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06Q50/00 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司 11134 | 代理人: | 宋子良 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 號碼特征 特征集合 方法和裝置 集合 信息處理 原始文本 標識信息 方法識別 結果文本 聯系方式 文本廣告 字母組合 關聯 | ||
1.一種信息處理方法,其特征在于,包括:
對原始文本進行識別,獲取號碼特征集合與字母特征集合,其中,所述號碼特征集合包含與聯系方式關聯的標識信息,所述字母特征集合包含所述原始文本中出現的文字對應的字母組合;
對所述號碼特征集合與所述字母特征集合進行組合,得到結果文本。
2.根據權利要求1所述的方法,其特征在于,對所述原始文本進行識別,獲取所述號碼特征集合與所述字母特征集合包括:
對所述原始文本進行預處理,得到待識別的文本;
從所述待識別的文本中識別出所述號碼特征集合與所述字母特征集合。
3.根據權利要求2所述的方法,其特征在于,對所述原始文本進行預處理包括以下至少之一:
將所述原始文本中出現的大寫字母轉化為對應的小寫字母;
將所述原始文本中出現的繁體字轉化為對應的簡體字;
將所述原始文本中出現的表征數字含義的字符中分離出對應的數字;
將所述原始文本中出現的一種或多種預設類型字符替換為統一的特定類型字符;
從所述原始文本中出現的圖片中提取所述圖片包含的內容,其中,所述內容包括以下至少之一:字母、文字、數字。
4.根據權利要求2所述的方法,其特征在于,從所述待識別的文本中識別出所述號碼特征集合包括:
按照聯系方式的類別標識確定對應的字符串的長度范圍;
通過所述類別標識和確定的長度范圍從所述待識別的文本中識別出號碼,并將所述號碼的信息標識加入至所述號碼特征集合。
5.根據權利要求4所述的方法,其特征在于,從所述待識別的文本中識別出所述字母特征集合包括以下至少之一:
將所述待識別的文本中出現的文字轉化為對應字母,并將由文字轉化得到的字母組合加入至所述字母特征集合;
將所述待識別的文本中出現的英文信息加入至所述字母特征集合;
將所述待識別的文本中出現的字母信息加入至所述字母特征集合。
6.根據權利要求5所述的方法,其特征在于,在從所述待識別的文本中識別出所述字母特征集合之后,還包括:
確定所述字母特征集合中存在與多個數字讀音相同的字母組合;
將確定的字母組合轉化為對應的數字集合;
如果通過所述類別標識和確定的長度范圍從所述數字集合識別出號碼,則將所述號碼的信息標識加入至所述號碼特征集合。
7.根據權利要求1所述的方法,其特征在于,在對所述號碼特征集合與所述字母特征集合進行組合,得到所述結果文本之后,還包括:
對所述結果文本中是否包含預設類型信息進行評估。
8.根據權利要求7所述的方法,其特征在于,對所述結果文本中是否包含所述預設類型信息進行評估包括:
將所述結果文本作為測試用例輸入至預設評估模型,獲取所述預設評估模型輸出的類別信息以及與所述類別信息對應的概率值;
采用所述類別信息和所述概率值評估所述結果文本中是否包含所述預設類型信息。
9.根據權利要求8所述的方法,其特征在于,采用所述類別信息和所述概率值評估所述結果文本中是否包含所述預設類型信息包括:
選取大于預設閾值的概率值對應的類別信息評估所述結果文本中是否包含所述預設類型信息。
10.一種信息的處理裝置,其特征在于,包括:
識別模塊,用于對原始文本進行識別,獲取號碼特征集合與字母特征集合,其中,所述號碼特征集合包含與聯系方式關聯的標識信息,所述字母特征集合包含所述原始文本中出現的文字對應的字母組合;
獲取模塊,用于對所述號碼特征集合與所述字母特征集合進行組合,得到結果文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710464769.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種人工智能的敏感信息檢測方法
- 下一篇:短語提取文本分析方法和系統





