[發(fā)明專利]一種篩選文本的方法及裝置有效
| 申請?zhí)枺?/td> | 201410658708.6 | 申請日: | 2014-11-18 |
| 公開(公告)號: | CN104331390B | 公開(公告)日: | 2018-09-11 |
| 發(fā)明(設(shè)計)人: | 陳俊光;羅尚虎 | 申請(專利權(quán))人: | 網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司 |
| 主分類號: | G06F17/21 | 分類號: | G06F17/21;G06F17/27 |
| 代理公司: | 北京信遠(yuǎn)達(dá)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11304 | 代理人: | 魏曉波 |
| 地址: | 310052 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 篩選 文本 方法 裝置 | ||
1.一種篩選文本的方法,包括:
對電子文檔中的文本元素進(jìn)行解析,得到所述文本元素的屬性;所述對電子文檔中的文本元素進(jìn)行解析,得到所述文本元素的屬性包括:如果所述電子文檔是遵守openxml標(biāo)準(zhǔn)協(xié)議的word文檔,對所述電子文檔進(jìn)行解壓縮,得到所述電子文檔的子文件,根據(jù)openxml標(biāo)準(zhǔn)協(xié)議,從所述子文件中得到使用xml標(biāo)簽描述所述電子文檔的文本元素及其屬性的控制文件,從所述控制文件中使用Apache POI提供的接口或者根據(jù)文件直接屬性的引用關(guān)系讀取出文本元素及用于描述所述文本元素屬性的xml標(biāo)簽;如果所述電子文檔不是遵守openxml標(biāo)準(zhǔn)協(xié)議的word文檔,將所述電子文檔轉(zhuǎn)換為遵守openxml標(biāo)準(zhǔn)協(xié)議的文檔,進(jìn)入所述對電子文檔進(jìn)行解壓縮的步驟;
根據(jù)所述文本元素的屬性,從所述文本元素中篩選出屬性符合屬性篩選規(guī)則的文本元素,所述屬性符合屬性篩選規(guī)則的文本元素的屬性是用戶添加的;所述根據(jù)所述文本元素的屬性,從所述文本元素中篩選出屬性符合屬性篩選規(guī)則的文本元素包括:從讀取出的文本元素中篩選出所述屬性篩選規(guī)則設(shè)置的篩選xml標(biāo)簽所描述的文本元素。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述屬性篩選規(guī)則包括:對具有指定字體屬性的文本元素的篩選規(guī)則、對具有指定段落屬性的文本元素的篩選規(guī)則、和/或者,對具有指定樣式屬性的文本元素的篩選規(guī)則。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述對具有指定字體屬性的文本元素的篩選規(guī)則具體為,對具有高亮字體屬性的文本元素的篩選規(guī)則;
所述對具有指定樣式屬性的文本元素的篩選規(guī)則具體為,對具有標(biāo)題屬性的文本元素的篩選規(guī)則。
4.根據(jù)權(quán)利要求1-3任一項所述的方法,還包括:
將篩選出的所有文本元素以預(yù)置屬性輸出到預(yù)置格式的另一電子文檔中。
5.一種篩選文本的裝置,包括:
解析單元,配置用于對電子文檔中的文本元素進(jìn)行解析,得到所述文本元素的屬性;
篩選單元,配置用于根據(jù)所述文本元素的屬性,從所述文本元素中篩選出屬性符合屬性篩選規(guī)則的文本元素,所述屬性符合屬性篩選規(guī)則的文本元素的屬性是用戶添加的;
所述解析單元包括:
壓縮文檔解析子單元,配置用于如果所述電子文檔是遵守openxml標(biāo)準(zhǔn)協(xié)議的word文檔,對所述電子文檔進(jìn)行解壓縮,得到所述電子文檔的子文件;
標(biāo)簽讀取子單元,配置用于根據(jù)openxml標(biāo)準(zhǔn)協(xié)議,從所述子文件中得到使用xml標(biāo)簽描述所述電子文檔的文本元素及其屬性的控制文件,從所述控制文件中使用Apache POI提供的接口或者根據(jù)文件直接屬性的引用關(guān)系讀取出文本元素及用于描述所述文本元素屬性的xml標(biāo)簽;
非壓縮文檔轉(zhuǎn)換子單元,配置用于如果所述電子文檔不是遵守openxml標(biāo)準(zhǔn)協(xié)議的word文檔,將所述電子文檔轉(zhuǎn)換為遵守openxml標(biāo)準(zhǔn)協(xié)議的文檔,觸發(fā)所述壓縮文檔解析子單元對轉(zhuǎn)換后的文檔進(jìn)行解壓縮;
所述篩選單元,具體配置用于從所述標(biāo)簽讀取子單元讀取出的文本元素中篩選出所述屬性篩選規(guī)則設(shè)置的篩選xml標(biāo)簽所描述的文本元素。
6.根據(jù)權(quán)利要求5所述的裝置,其中,所述篩選單元,配置用于根據(jù)所述文本元素的屬性,從所述文本元素中篩選出具有指定字體屬性的文本元素、具有指定段落屬性的文本元素、和/或者,具有指定樣式屬性的文本元素。
7.根據(jù)權(quán)利要求6所述的裝置,其中,所述篩選單元,配置用于根據(jù)所述文本元素的屬性,從所述文本元素中篩選出具有高亮字體屬性的文本元素、以及,具有標(biāo)題屬性的文本元素。
8.根據(jù)權(quán)利要求5-7任一項所述的裝置,還包括:
輸出單元,配置用于將篩選出的所有文本元素以預(yù)置屬性輸出到預(yù)置格式的另一電子文檔中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司,未經(jīng)網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410658708.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種耐油高彈改性天然橡膠電纜料
- 下一篇:一種穩(wěn)定的熱固性塑料





