[發明專利]一種含格式的html富文本數據的跨標簽處理方法及系統有效
| 申請號: | 201310545888.2 | 申請日: | 2013-11-06 |
| 公開(公告)號: | CN103530430A | 公開(公告)日: | 2014-01-22 |
| 發明(設計)人: | 邢世康 | 申請(專利權)人: | 焦點科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 張蘇沛 |
| 地址: | 210061 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 格式 html 文本 數據 標簽 處理 方法 系統 | ||
1.一種含格式的html富文本數據的跨標簽處理方法,其特征在于包括以下步驟:
步驟一、采用parse機制,將html富文本數據作為parse分析器的輸入,轉換為類似DOM的樹結構對象,html富文本數據中的純文本數據將填寫到樹結構對象節點中,形成了多個節點純字符串片段;
步驟二、在樹結構對象中,根據各個節點中包含的純字符串片段,按順序拼接這些文本數據,與parse分析器的輸入(即html富文本)對應,形成不包含格式標簽的純文本字符串數據。
步驟三、對該純文本字符串數據進行校驗、具體業務處理,生成修正后的純文本字符串數據;
步驟四、將修正后的純文本字符串數據與樹結構對象中各個節點的純字符串片段進行相似度匹配計算,逐個計算出純文本字符串數據中單詞與節點中純字符片段內容之間的距離;
步驟五、將所有的節點純字符串片段與修正后的字符串數據匹配完成后,形成了新的樹結構對象,再對新的樹結構對象進行轉換處理,通過parse逆向形成完整的html富文本數據。
2.根據權利要求1所述的跨標簽處理方法,其特征在于:步驟一中,所述DOM是以面向對象方式描述的文檔模型,定義了表示和修改文檔所需的對象、對象的行為和屬性,以及這些對象之間的關系,DOM是頁面上數據和結構的一個樹形表示,DOM模型是在客戶端的瀏覽器上使用;
所述parse機制,是將一組字符串作為輸入,進行解析轉換成特定對象結構的機制;所述特定對象結構指計算機程序領域的一組數據結構對象,即類似DOM的樹結構對象。
所述樹結構對象采用與DOM的相似的樹形結構,與DOM不同的是,它可以在服務器上使用。
3.根據權利要求1所述的跨標簽處理方法,其特征在于:步驟三中,所述處理包括敏感詞替換、單詞書寫糾錯、專有名詞識別格式化、大小寫格式化一系列字符串處理,生成修正后的純文本字符串數據。
4.根據權利要求1所述的跨標簽處理方法,其特征在于:步驟四中,根據局部最優的原則,選出距離局部最小的純文本字符串,將其替換填入相應的節點純字符串片段內。其中,相似度匹配算法默認采取了一種字符最短路徑算法的改進算法,在最短路徑的基礎上,通過距離計算和最佳整體距離匹配來計算最佳匹配。
5.一種含格式的html富文本數據的跨標簽處理系統,其特征在于:它由Parse分析器、節點分析器、純文本處理器、相似度匹配處理器、文本轉換器組成。Parse分析器、節點分析器、純文本處理器、相似度匹配處理器、文本轉換器順次連接;
所述Parse分析器,用于對接收到的html富文本數據進行分析,并轉換成類似DOM的樹結構對象,html富文本數據中的純文本數據將填寫到樹結構對象節點中,形成了多個節點純字符串片段,并且樹結構對象可以正在服務器上使用;
所述節點分析器,用于根據樹結構對象中的各個節點中包含的純字符串片段,按順序拼接這些純字符串,形成與parse分析器的輸入(即html富文本)對應的不包含格式標簽的純文本字符串數據;
所述純文本處理器,用于處理節點分析器形成的純文本字符串數據,對他們進行校驗以及具體業務處理,包括敏感詞替換、單詞書寫糾錯、專有名詞識別格式化、大小寫格式化一系列字符串處理操作;
所述相似度匹配處理器,用于接收純文本處理器處理后形成的修正后的純文本字符串數據,將修正后的字符串數據與樹結構對象中各個節點的純字符片段進行相似度匹配,根據局部最優原則,選出距離局部最小的純文本字符串,替換填入相應的節點純字符片段內,并輸出新的樹結構對象;
所述文本轉換器,用于對新的樹結構對象進行轉換處理,通過parse逆向形成完整的html富文本數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于焦點科技股份有限公司,未經焦點科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310545888.2/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





