[發(fā)明專利]一種含格式的html富文本數(shù)據(jù)的跨標(biāo)簽處理方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310545888.2 | 申請日: | 2013-11-06 |
| 公開(公告)號(hào): | CN103530430A | 公開(公告)日: | 2014-01-22 |
| 發(fā)明(設(shè)計(jì))人: | 邢世康 | 申請(專利權(quán))人: | 焦點(diǎn)科技股份有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 南京知識(shí)律師事務(wù)所 32207 | 代理人: | 張?zhí)K沛 |
| 地址: | 210061 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 格式 html 文本 數(shù)據(jù) 標(biāo)簽 處理 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明應(yīng)用在web互聯(lián)網(wǎng)領(lǐng)域,具體涉及一種含格式的html富文本數(shù)據(jù)的跨標(biāo)簽處理方法及系統(tǒng)。
背景技術(shù)
互聯(lián)網(wǎng)中需要處理大量用戶提交的數(shù)據(jù),大多數(shù)情況下,用戶提交的數(shù)據(jù)都是由純文字組成,但很多情況下,用戶提交的信息是含有格式標(biāo)簽的富文本數(shù)據(jù),例如博客中具有豐富多樣展現(xiàn)形式的信息,用戶使用的自主建站服務(wù)以及電子商務(wù)賣家都具備多樣化展示的功能。
因?yàn)樵诤芏囝I(lǐng)域用戶能編輯定制化的html富文本數(shù)據(jù),這些富文本數(shù)據(jù)都含有格式標(biāo)簽。但是用戶提交的html富文本數(shù)據(jù)中包含有很多不可靠因素,它們會(huì)產(chǎn)生一些負(fù)面因素,影響網(wǎng)站內(nèi)容,以及網(wǎng)站運(yùn)行的質(zhì)量和安全,總結(jié)起來,這些負(fù)面因素主要包括以下幾類:
(1)不安全的因素,例如攻擊代碼等。
(2)提交的內(nèi)容不規(guī)范,影響網(wǎng)站內(nèi)容的質(zhì)量。
(3)提交的內(nèi)容含有不健康、違禁的內(nèi)容。
例如,提交的html富文本數(shù)據(jù)包含有“<strong>pass</strong>word”,這段含有格式的文本中,其中“pass”顯示為粗體,“word”為正常字體,在頁面顯示效果類似“password”,其中“<strong></strong>”為格式標(biāo)簽。假設(shè)其中的“pass”和“word”都是可被網(wǎng)站允許的正常單詞,但是組合起來的“password”是敏感詞,是需要被禁止的。在這種情況下,由于“password”在提交的HTML富文本數(shù)據(jù)是表現(xiàn)為“<strong>pass</strong>word”,“password”被格式標(biāo)簽“</strong>”分離成“pass”和“word”,而系統(tǒng)認(rèn)為“pass”和“word”是合法的單詞,都是允許通過。在類似這種情況下,如果含有格式的富文本數(shù)據(jù)不進(jìn)行跨標(biāo)簽處理,將會(huì)把不健康、違禁的、以及不合法的內(nèi)容顯示出來。
從處理方法來看,google的網(wǎng)頁翻譯工具涉及到類似情況的處理,但在html網(wǎng)頁翻譯的處理上,google目前還只是實(shí)現(xiàn)對(duì)各個(gè)標(biāo)簽內(nèi)部文本數(shù)據(jù)的處理,并沒有涉及到跨標(biāo)簽的富文本數(shù)據(jù)的處理。
類似這種跨標(biāo)簽的處理需求有很多,跨標(biāo)簽的處理存在兩種情況,一種是只做分析,這種情況下對(duì)html富文本數(shù)據(jù)進(jìn)行解析,提取其中實(shí)際有效的文字,然后做分析。另一種是不僅做分析,還要做處理,然后再返回處理過后信息內(nèi)容,例如對(duì)于上述中“password”識(shí)別后,將“password”單詞轉(zhuǎn)換為“Pasword”,并在轉(zhuǎn)換后,并恢復(fù)既定的富文本格式,并且在恢復(fù)處理中,使最終結(jié)果為最佳效果:“<strong>Pas</strong>word”,而不是“<strong>Pasw</strong>ord”或其他結(jié)果。
目前有一些方法處理這種跨標(biāo)簽問題,其中占位還原法用的比較普遍,這種方法通常對(duì)html富文本數(shù)據(jù)進(jìn)行逐字分析,找到其中的標(biāo)簽,并用特定標(biāo)志進(jìn)行標(biāo)識(shí),對(duì)整個(gè)富文本數(shù)據(jù)作完標(biāo)識(shí)后,再根據(jù)業(yè)務(wù)對(duì)標(biāo)識(shí)處進(jìn)行處理。這種方法一般只能用來處理一種業(yè)務(wù),通用性不強(qiáng),而互聯(lián)網(wǎng)處理方面情況眾多,業(yè)務(wù)復(fù)雜,需要處理方法具有一定的通用性。
為了防止用戶提交的html富文本數(shù)據(jù)不會(huì)破壞整個(gè)網(wǎng)站的安全性,以及網(wǎng)站整體協(xié)調(diào)性,需要作大量的分析處理,有時(shí)候還需要對(duì)拼寫不規(guī)范的文本做自動(dòng)化規(guī)范處理,這個(gè)過程不僅需要對(duì)html富文本數(shù)據(jù)做細(xì)致的分析,而且要進(jìn)行跨標(biāo)簽的文本處理工作,這些工作對(duì)網(wǎng)站整體的質(zhì)量來說都是非常必要的。
發(fā)明內(nèi)容
針對(duì)以上的問題,本發(fā)明提出一種含格式的html富文本數(shù)據(jù)的跨標(biāo)簽處理方法及系統(tǒng),根據(jù)接收的含格式的html富文本數(shù)據(jù),把它轉(zhuǎn)換成不含格式的純文本,然后通過業(yè)務(wù)處理,消除文本中的攻擊代碼、不規(guī)范的書寫、以及敏感詞等不合法、違禁的不安全因素,然后把處理后的純文本按照相似度匹配最佳效果的方式重新恢復(fù)到原有的格式,轉(zhuǎn)換成安全的含格式的html富文本數(shù)據(jù),在網(wǎng)站上展示,提高了網(wǎng)站的安全性和內(nèi)容的質(zhì)量。
本發(fā)明技術(shù)方案如下
一種含格式的html富文本數(shù)據(jù)的跨標(biāo)簽處理方法,包括:
首先,采用parse機(jī)制,將html富文本數(shù)據(jù)作為parse分析器的輸入,轉(zhuǎn)換為類似DOM的樹結(jié)構(gòu)對(duì)象,html富文本數(shù)據(jù)中的純文本數(shù)據(jù)將填寫到樹結(jié)構(gòu)對(duì)象節(jié)點(diǎn)中,形成了多個(gè)節(jié)點(diǎn)純字符串片段。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于焦點(diǎn)科技股份有限公司,未經(jīng)焦點(diǎn)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310545888.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種新型雙串并聯(lián)雙三效吸收式熱泵
- 下一篇:基于對(duì)象關(guān)聯(lián)映射的Android終端訪問遠(yuǎn)程數(shù)據(jù)庫代碼生成系統(tǒng)和方法
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





