[發明專利]英文郵件文本數據處理方法、裝置、設備及可存儲介質在審

申請號：	202011026986.1	申請日：	2020-09-25
公開（公告）號：	CN112417849A	公開（公告）日：	2021-02-26
發明（設計）人：	祁俊輝	申請（專利權）人：	深圳市小滿科技有限公司
主分類號：	G06F40/232	分類號：	G06F40/232;G06F40/284;G06F40/211
代理公司：	深圳龍圖騰專利代理有限公司 44541	代理人：	莊露露
地址：	518000 廣東省深圳市南山區***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	英文郵件文本數據處理方法裝置設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明適用數據處理技術領域，提供英文郵件文本數據處理方法、裝置、設備及可存儲介質，獲取英文郵件文本數據中的標點符號的類型及對應數量，確定逗號占比；當逗號占比不小于預設比例閾值時，則根據N?Gram語言模型對逗號進行糾正處理，進而對經逗號糾正處理后的英文郵件文本數據進行句子切分處理；當判斷經句子切分處理后的英文郵件文本數據中存在逗號數量大于預設數量閾值的長句時，則根據N?Gram語言模型對英文郵件文本數據進行長句處理，得到處理后的英文郵件文本數據。本發明解決了因不同人書寫郵件的習慣不同而導致的正則表達式分句不規范的現象，可以達到正確地對郵件文本進行句子劃分的目的，為郵件數據的后續挖掘作技術支持。

技術領域

本發明屬于數據處理技術領域，尤其涉及一種英文郵件文本數據處理方法、裝置、設備及可存儲介質。

背景技術

在郵件數據處理中，為了自動獲取郵件摘要等服務，需要首先對郵件文本進行句子切分。然而每個人書寫郵件的方式不同，以英文郵件為例，有的人會用多個空格來表示標點符號，有的人會以回車符替代標點符號以表示不同句子，還有的人會一直打逗號，其中沒有句號結尾，非常的不規范。

現有技術只支持規范文本的句子切割，其本質還是通過正則表達式等方式匹配標點符號來切割句子，但這種方法對不規范的郵件文本數據來講極其不適用。

由此可見，現有的文本句子切割方法無法適用于因不同人書寫郵件的習慣不同而導致的正則表達式分句不規范的現象，使用受限的問題。

發明內容

本發明實施例的目的在于提供一種英文郵件文本數據處理方法，旨在解決現有的文本句子切割方法無法適用于因不同人書寫郵件的習慣不同而導致的正則表達式分句不規范的現象，使用受限的問題。

本發明實施例是這樣實現的，一種英文郵件文本數據處理方法，包括：

獲取待處理的英文郵件文本數據；

獲取所述英文郵件文本數據中的標點符號的類型以及對應數量；

根據所述標點符號的類型以及對應數量，確定逗號占比；