[發(fā)明專利]一種在word文檔中提取英文縮略語的方法和系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202210072746.8 | 申請(qǐng)日: | 2022-01-21 |
| 公開(公告)號(hào): | CN114528828A | 公開(公告)日: | 2022-05-24 |
| 發(fā)明(設(shè)計(jì))人: | 葉曉新;張海勇;徐歡歡;邱小麗;鄭佩 | 申請(qǐng)(專利權(quán))人: | 深圳市吉祥騰達(dá)科技有限公司 |
| 主分類號(hào): | G06F40/284 | 分類號(hào): | G06F40/284 |
| 代理公司: | 深圳市海順達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 44831 | 代理人: | 歐陽士 |
| 地址: | 518000 廣東省深圳市南山區(qū)西麗*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 word 文檔 提取 英文 縮略語 方法 系統(tǒng) | ||
本申請(qǐng)公開了一種在word文檔中提取英文縮略語的方法和系統(tǒng),提取英文縮略語的方法,包括以下步驟:讀取word文檔中的全部語句,并將全部語句分割成單詞格式;去除重復(fù)的單詞及單詞前后的標(biāo)點(diǎn)符號(hào),并生成單詞列表;提取所述單詞列表中存在兩個(gè)以上大寫字母的單詞,并生成初選縮略語列表;讀取過濾文件,并將所述過濾文件中的單詞與所述初選縮略語列表進(jìn)行匹配,其中,所述過濾文件中存儲(chǔ)有含兩個(gè)以上大寫字母的非縮略語單詞;刪除所述初選縮略語列表中與所述過濾文件中重復(fù)的單詞,生成精選縮略語列表;輸出所述精選選縮略語列表。本申請(qǐng)不僅能夠提高提取英文縮略語的效率,同時(shí)也提高了提取英文縮略語的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及文檔處理技術(shù)領(lǐng)域,更具體地,涉及一種在word文檔中提取英文縮略語的方法和系統(tǒng)。
背景技術(shù)
英文縮略語是英文資料中常用的一種縮寫形式,例如IT、PC、WWW等就是最常見的英文縮略語。
網(wǎng)絡(luò)通信設(shè)備屬于高科技產(chǎn)品,其英文資料文檔往往涉及到眾多專業(yè)術(shù)語的縮略語,無線路由器、交換機(jī)等產(chǎn)品的英文版用戶使用說明書尤其如此。在上述產(chǎn)品的用戶使用說明書中為了向客戶清晰的傳達(dá)產(chǎn)品的功能及使用方法,同時(shí)為了縮小文檔篇幅會(huì)在文中采用縮略語的方式編排內(nèi)容,最后在文末用附錄的形式展示縮略語和其完整語句的對(duì)應(yīng)關(guān)系表。
目前的方式都是人工去收集word文檔中的英文縮略語,進(jìn)行匯總編輯;但是對(duì)于文檔篇幅較長(zhǎng),采用人工去收集文中的英文縮略語和其完整語句對(duì)應(yīng)關(guān)系表,往往是一個(gè)耗時(shí)費(fèi)力的過程,且稍有疏忽就會(huì)出現(xiàn)重復(fù)或遺漏,導(dǎo)致對(duì)應(yīng)關(guān)系表統(tǒng)計(jì)不全的問題。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)存在的問題,一方面,本申請(qǐng)?zhí)峁┮环N在word文檔中提取英文縮略語的方法,包括以下步驟:
S1:讀取word文檔中的全部語句,并將全部語句分割成單詞格式;
S2:去除重復(fù)的單詞及單詞前后的標(biāo)點(diǎn)符號(hào),并生成單詞列表;
S3:提取所述單詞列表中存在兩個(gè)以上大寫字母的單詞,并生成初選縮略語列表;
S4:讀取過濾文件,并將所述過濾文件中的單詞與所述初選縮略語列表進(jìn)行匹配,其中,所述過濾文件中存儲(chǔ)有含兩個(gè)以上大寫字母的非縮略語單詞;
S5:刪除所述初選縮略語列表中與所述過濾文件中重復(fù)的單詞,生成精選縮略語列表;
S6:輸出所述精選選縮略語列表。
作為本申請(qǐng)的進(jìn)一步改進(jìn),在執(zhí)行步驟S1之前,還包括以下步驟:
A1:接收用戶輸入的word文檔的文件名稱;
A2:判斷當(dāng)前路徑是否存在所述文件名稱,若存在,則執(zhí)行步驟S1,若不存在,則提示錯(cuò)誤。
作為本申請(qǐng)的進(jìn)一步改進(jìn),在步驟S1中,包括以下步驟:
S11:讀取所述word文檔中文本部分的全部語句;
S12:讀取所述word文檔中表格部分的全部語句:
S13:將全部語句分割成單詞格式。
作為本申請(qǐng)的進(jìn)一步改進(jìn),在步驟S3中,包括以下步驟:
S31:提取所述單詞列表中首字母為大寫的單詞;
S32:提取首字母大寫的單詞中,除首字母外還存在至少一個(gè)大寫字母的單詞;
S33:保存提取的單詞,并生成初選縮略語列表。
作為本申請(qǐng)的進(jìn)一步改進(jìn),在執(zhí)行步驟S4之前,還包括以下步驟:
B1:接收用戶錄入含兩個(gè)以上大寫字母的非縮略語單詞;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市吉祥騰達(dá)科技有限公司,未經(jīng)深圳市吉祥騰達(dá)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210072746.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備





