[發明專利]一種電子郵件語言的識別方法有效
| 申請號: | 201610457565.1 | 申請日: | 2016-06-22 |
| 公開(公告)號: | CN107528765B | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 孫寧 | 申請(專利權)人: | 北京宸瑞國新科技有限公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;G06Q10/10 |
| 代理公司: | 北京康思博達知識產權代理事務所(普通合伙) 11426 | 代理人: | 劉冬梅;路永斌 |
| 地址: | 100036 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電子郵件 語言 識別 方法 | ||
1.一種電子郵件語言的識別方法,其特征在于,該方法包括以下步驟:
步驟1:選取電子郵件,獲得滿足預定要求的電子郵件;
步驟2:讀取滿足預定要求的電子郵件的相關內容;
步驟3:對滿足預定要求的電子郵件的相關內容做語言識別處理;
步驟4:統計所述滿足預定要求的電子郵件的語言種類及每種語言的比重;
步驟1中,所述預定要求為電子郵件的格式遵循RFC協議,其中RFC協議是指1982年出版的RFC822的電子郵件格式的規定;
讀取的滿足預定要求的電子郵件的相關內容包括電子郵件發件服務器地址、電子郵件收件服務器地址、電子郵件的優先級、電子郵件發件人、電子郵件收件人列表、電子郵件抄送人列表、電子郵件密送人列表、電子郵件標題、電子郵件正文和電子郵件附件;
在讀取的滿足預定要求的電子郵件的相關內容中以電子郵件標題、電子郵件正文和電子郵件附件為電子郵件語言識別的主要要素;
步驟3中,對滿足預定要求的電子郵件的相關內容做語言識別處理包括以下子步驟:
子步驟3.1:將所述電子郵件標題、電子郵件正文和電子郵件附件分別轉化為二進制編碼;
所述電子郵件附件包括Microsoft Office文件、PDF文件和TXT文件,
子步驟3.2:對所述二進制編碼做初步語言識別處理,獲得初次識別結果;
在子步驟3.2中通過Unicode編碼對所述二進制編碼做初步語言識別處理,獲得初次識別結果,
子步驟3.3:對所述初次識別結果做二次語言識別處理,獲得二次識別結果;
在子步驟3.3中通過語言習慣對所述初次識別結果做二次語言識別處理,獲得二次識別結果;統計所述二次識別結果獲得所述滿足預定要求的電子郵件的語言種類及每種語言的比重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京宸瑞國新科技有限公司,未經北京宸瑞國新科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610457565.1/1.html,轉載請聲明來源鉆瓜專利網。





