[發(fā)明專利]一種電子郵件語言的識別方法有效
| 申請?zhí)枺?/td> | 201610457565.1 | 申請日: | 2016-06-22 |
| 公開(公告)號: | CN107528765B | 公開(公告)日: | 2020-09-29 |
| 發(fā)明(設計)人: | 孫寧 | 申請(專利權)人: | 北京宸瑞國新科技有限公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;G06Q10/10 |
| 代理公司: | 北京康思博達知識產權代理事務所(普通合伙) 11426 | 代理人: | 劉冬梅;路永斌 |
| 地址: | 100036 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電子郵件 語言 識別 方法 | ||
本發(fā)明公開了一種識別電子郵件語言的方法以及系統(tǒng),該方法包括:步驟1,選取電子郵件,獲得滿足預定要求的電子郵件;步驟2,讀取滿足預定要求的電子郵件的相關內容;步驟3,對滿足預定要求的電子郵件的相關內容做語言識別處理;步驟4,統(tǒng)計所述滿足預定要求的電子郵件的語言種類及每種語言的比重。本發(fā)明可以對大量郵件進行識別,并可以將大量郵件按語言分類,并可以對單一郵件進行多語種分類,不僅可以按比重最大的語種將大量郵件數(shù)據進行分析,也可以按語種搭配進行復合語種分類和分析,同時,識別過程高效準確,大大提高了人工識別的效率,也提高了語言識別的準確性。
技術領域
本發(fā)明涉及郵件信息識別領域,主要涉及一種電子郵件語言的識別方法及系統(tǒng),屬于語言識別領域。
背景技術
電子郵件是—種用電子手段提供信息交換的通信方式,是互聯(lián)網應用最廣的服務,是全球許多個人、企事業(yè)單位網絡辦公流程的基礎。電子郵件可以是文字、圖像、聲音等多種形式。同時,用戶可以得到大量免費的新聞、專題郵件,并實現(xiàn)輕松的信息搜索。電子郵件的存在極大地方便了人與人之間的溝通與交流,促進了社會的發(fā)展。在這個數(shù)據爆發(fā)的時代,電子郵件無時無刻不在傳輸、存儲,企業(yè)內部電子郵件數(shù)據、電子郵件服務商郵件數(shù)據非常龐大而難以維護和分類。尤其涉及到全球不同國家的電子郵件、不同文化的電子郵件、多種語言混雜的電子郵件,想要通過語言文化及語言側重對龐大的電子郵件數(shù)據進行區(qū)分分析就尤其困難,需要花費大量的時間通過人工識別方式對電子郵件處理分類。
在現(xiàn)有技術中,通常通過電子郵件過濾器將收到的電子郵件進行歸類并將其收入相應的文件夾或電子郵箱的閱讀軟件。但是電子郵件過濾器只能根據電子郵件的來源、電子郵件的主題和電子郵件的長度來進行分類,無法識別出電子郵件所使用的語言,無法獲得電子郵件的多種語言的比重,而且電子郵件過濾器的過濾過程是自上而下的,即先執(zhí)行第一條過濾規(guī)則,再執(zhí)行第二條過濾規(guī)則,再依次向下執(zhí)行,若過濾規(guī)則匹配,根據用戶設定的過濾規(guī)則向下執(zhí)行,因此,電子郵件過濾器處理電子郵件時不夠靈活。
由于上述原因,本發(fā)明人對現(xiàn)有的郵件識別技術進行了深入研究,以便設計出一種成本低廉,操作簡單,適用范圍廣泛的識別電子郵件語言的方法及系統(tǒng)。
發(fā)明內容
為了克服上述問題,本發(fā)明人進行了銳意研究,設計出
具體來說,本發(fā)明的目的在于提供以下方面:
(1)一種電子郵件語言的識別方法,其特征在于,該方法包括以下步驟:
步驟1:選取電子郵件,獲得滿足預定要求的電子郵件;
步驟2:讀取滿足預定要求的電子郵件的相關內容;
步驟3:對滿足預定要求的電子郵件的相關內容做語言識別處理;
步驟4:統(tǒng)計所述滿足預定要求的電子郵件的語言種類及每種語言的比重。
(2)根據(1)所述方法,其特征在于,所述預定要求為電子郵件的格式遵循RFC協(xié)議,其中RFC協(xié)議是指1982年出版的RFC822的電子郵件格式的規(guī)定。
(3)根據(1)所述方法,其特征在于,讀取的滿足預定要求的電子郵件的相關內容包括電子郵件發(fā)件服務器地址、電子郵件收件服務器地址、電子郵件的優(yōu)先級、電子郵件發(fā)件人、電子郵件收件人列表、電子郵件抄送人列表、電子郵件密送人列表、電子郵件標題、電子郵件正文和電子郵件附件;
優(yōu)選地,在讀取的滿足預定要求的電子郵件的相關內容中以電子郵件標題、電子郵件正文和電子郵件附件為電子郵件語言識別的主要要素。
(4)根據(3)所述方法,其特征在于,步驟3中,對滿足預定要求的電子郵件的相關內容做語言識別處理包括以下子步驟:
子步驟3.1:將所述電子郵件標題、電子郵件正文和電子郵件附件分別轉化為二進制編碼;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京宸瑞國新科技有限公司,未經北京宸瑞國新科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610457565.1/2.html,轉載請聲明來源鉆瓜專利網。





