[發(fā)明專利]英文郵件文本數(shù)據(jù)處理方法、裝置、設(shè)備及可存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011026986.1 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112417849A | 公開(公告)日: | 2021-02-26 |
| 發(fā)明(設(shè)計)人: | 祁俊輝 | 申請(專利權(quán))人: | 深圳市小滿科技有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/284;G06F40/211 |
| 代理公司: | 深圳龍圖騰專利代理有限公司 44541 | 代理人: | 莊露露 |
| 地址: | 518000 廣東省深圳市南山區(qū)*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 英文 郵件 文本 數(shù)據(jù)處理 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
1.一種英文郵件文本數(shù)據(jù)處理方法,其特征在于,包括:
獲取待處理的英文郵件文本數(shù)據(jù);
獲取所述英文郵件文本數(shù)據(jù)中的標點符號的類型以及對應(yīng)數(shù)量;
根據(jù)所述標點符號的類型以及對應(yīng)數(shù)量,確定逗號占比;
當所述逗號占比不小于預設(shè)比例閾值時,則根據(jù)預設(shè)的N-Gram語言模型對逗號進行糾正處理;
根據(jù)所述預設(shè)的N-Gram語言模型,對經(jīng)逗號糾正處理后的英文郵件文本數(shù)據(jù)進行句子切分處理;
當判斷經(jīng)句子切分處理后的英文郵件文本數(shù)據(jù)中存在逗號數(shù)量大于預設(shè)數(shù)量閾值的長句時,則根據(jù)所述預設(shè)的N-Gram語言模型對所述英文郵件文本數(shù)據(jù)進行長句處理,以得到處理后的英文郵件文本數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的英文郵件文本數(shù)據(jù)處理方法,其特征在于,所述獲取待處理的英文郵件文本數(shù)據(jù)的步驟之后,還包括:
根據(jù)預設(shè)標準格式規(guī)則,對所述英文郵件文本數(shù)據(jù)中的不規(guī)則字符進行去除。
3.根據(jù)權(quán)利要求1所述的英文郵件文本數(shù)據(jù)處理方法,其特征在于,所述當所述逗號占比不小于預設(shè)比例閾值時,則根據(jù)預設(shè)的N-Gram語言模型對逗號進行糾正處理的步驟,包括:
當所述逗號占比不小于預設(shè)比例閾值時,則對所述英文郵件文本數(shù)據(jù)進行分句處理,得到初級句子列表;
根據(jù)預設(shè)的初級首句條件,從所述初級句子列表中提取初級首句;
當判斷所述初級首句的句尾字符不是標點符號時,則根據(jù)預設(shè)的N-Gram語言模型確定所述初級首句的句尾對應(yīng)的常規(guī)標點符號類型;
將所述去除初級首句的初級句子列表確定為新一代的初級句子列表,并判斷所述新一代的初級句子列表是否為空;若否,則返回至所述根據(jù)預設(shè)的初級首句條件,從所述初級句子列表中提取初級首句的步驟;若是,則結(jié)束逗號糾正處理過程。
4.根據(jù)權(quán)利要求3所述的英文郵件文本數(shù)據(jù)處理方法,其特征在于,所述當判斷所述初級首句的句尾字符不是標點符號時,則根據(jù)預設(shè)的N-Gram語言模型確定所述初級首句的句尾對應(yīng)的常規(guī)標點符號類型的步驟,包括:
當判斷所述初級首句的句尾字符不是標點符號時,則依次在所述初級首句的句尾添加各種常規(guī)標點符號類型,并根據(jù)預設(shè)的N-Gram語言模型依次計算出所述各種常規(guī)標點符號類型對應(yīng)的得分;
將得分最高的常規(guī)標點符號類型確定為所述初級首句的句尾對應(yīng)的常規(guī)標點符號類型。
5.根據(jù)權(quán)利要求1所述的英文郵件文本數(shù)據(jù)處理方法,其特征在于,所述根據(jù)所述預設(shè)的N-Gram語言模型,對經(jīng)逗號糾正處理后的英文郵件文本數(shù)據(jù)進行分句處理的步驟,包括:
對經(jīng)逗號糾正處理后的英文郵件文本數(shù)據(jù)進行分句處理,得到一級句子列表;
根據(jù)預設(shè)的一級首句條件,從所述一級句子列表中提取一級首句;
當判斷所述一級首句的句尾字符不是標點符號時,則根據(jù)預設(shè)的N-Gram模型確定所述一級首句的句尾對應(yīng)的結(jié)束標點符號類型;
將所述去除一級首句的一級句子列表確定為新一代的一級句子列表,并判斷所述新一代的一級句子列表是否為空;若否,則返回至所述根據(jù)預設(shè)的一級首句條件,從所述一級句子列表中提取一級首句的步驟;若是,則結(jié)束句子切分處理過程。
6.根據(jù)權(quán)利要求1所述的英文郵件文本數(shù)據(jù)處理方法,其特征在于,所述當判斷經(jīng)句子切分處理后的英文郵件文本數(shù)據(jù)中存在逗號數(shù)量大于預設(shè)數(shù)量閾值的長句時,則根據(jù)所述預設(shè)的N-Gram語言模型對所述長句進行分句處理,得到處理后的英文郵件文本數(shù)據(jù)的步驟,包括:
當判斷經(jīng)句子切分處理后的英文郵件文本數(shù)據(jù)中存在逗號數(shù)量大于預設(shè)數(shù)量閾值的長句時,則根據(jù)逗號位置對所述長句進行切割,得到逗號切割列表;
根據(jù)預設(shè)的二級首句條件,從所述逗號切割列表中提取二級首句;
當判斷所述二級首句的句尾字符不是標點符號時,則根據(jù)預設(shè)的N-Gram語言模型確定所述二級首句的句尾對應(yīng)的常規(guī)標點符號類型;
將所述去除二級首句的一級句子列表確定為新一代的逗號切割列表,并判斷所述新一代的逗號切割列表是否為空;若否,則返回至所述根據(jù)預設(shè)的二級首句條件,從所述二級句子列表中提取二級首句的步驟;若是,則結(jié)束長句處理處理過程,得到處理后的英文郵件文本數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市小滿科技有限公司,未經(jīng)深圳市小滿科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011026986.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





