[發明專利]一種基于特定字符串查找的簡體中文編碼方式自動識別系統及方法有效
| 申請號: | 201910488932.8 | 申請日: | 2019-06-06 |
| 公開(公告)號: | CN110196968B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 蔣東辰;賈婉華;牛穎 | 申請(專利權)人: | 北京林業大學 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/279;G06F40/216;G06F16/903 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 安麗 |
| 地址: | 100083 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特定 字符串 查找 簡體中文 編碼 方式 自動識別 系統 方法 | ||
本發明涉及一種基于特定字符串查找的簡體中文編碼方式自動識別系統及方法,包括:字符串集合設置模塊及中文文本編碼識別模塊,其中:字符串集合設置模塊:用于設置GB?18030和UTF8的排他字符串集合,及GB?18030編碼和UTF8編碼的高概率字符串集合;中文文本編碼識別模塊:根據GB?18030編碼和UTF8編碼的排他字符串集合的邏輯屬性和高概率字符串集合的概率屬性識別目標文本的簡體中文編碼方式。能夠通過對幾個常用漢字特定編碼字符串的查找,快速確定簡體中文文本的編碼方式;既適用于瀏覽器、網頁爬蟲等軟件快速識別簡體中文網頁的編碼方式,也可用于對未知中文文本編碼方式的自動識別。本發明對于網頁自動顯示、文本信息提取、中文文本語義分析等方面具有重要的應用價值。
技術領域
本發明涉及網絡通信、信息檢索、中文信息處理等相關技術領域,特別涉及瀏覽器、爬蟲等網頁獲取工具對簡體中文編碼網頁編碼方式的自動識別系統及方法。
技術背景
隨著互聯網技術和大數據處理能力的高速發展,萬維網(World?Wide?Web)已經成為世界上最大的文本資料庫。如何有效地提取萬維網上的信息已經成為當前的一個新的研究方向,其內容涉及高速的收集、處理和提取網頁文本信息。
人們在使用瀏覽器瀏覽網頁或者利用爬蟲自動提取信息時,首先需要利用程序對網頁文件源碼進行編碼解析。對于內容為中文的網頁而言,常用的簡體中文編碼包括GBK、UTF-8、GB2312、GB18030等。其中,GBK、GB2312等常用簡體中文編碼方式與GB18030編碼是兼容的,而UTF8編碼與GB18030等編碼方式存在差異。同樣的網頁數據、不同的解碼會導致顯示內容的差異,甚至會出現亂碼現象。因此,只有正確解碼才能有效地識別網頁文本中的中文信息,為后續的內容處理提供正確的文本解讀。
一般地,網頁HTML文本的編碼方式會在head標簽內部的meta標簽中的charset字段標識。瀏覽器或爬蟲只要找到meta標簽中的charset字段就可自動識別HTML文本的編碼方式。這種識別方法要求網頁生成程序或網頁內容書寫者準確的標注中文網頁文本的編碼方式。然而,隨著網頁的制作手段多樣化、網站申請和發布愈加靈活,許多可公開訪問的網頁在頁面代碼編寫方面并不完善,許多中文網頁并未包含charset字段甚至不含meta標簽。這使得基于網頁標簽的中文編碼識別變得困難。為此,瀏覽器等相關軟件開發者嘗試不同的方法自動識別中文網頁的編碼方式,以實現中文文本的正確解析。
常用的中文編碼識別方法大致可分為以下幾類:
基于編碼特征提取的識別方法。由于各類中文編碼在中文字符長度等數字特征方面存在差異,基于編碼特征提取的識別方法通過統計文本中連續的中文字符串長度、單個漢字的平均編碼長度等數字特征識別網頁的編碼方式。這類方法對具有較長文本的純中文網頁十分有效。但對于中英文混合文本,該方法會受到英文字符編碼的干擾,準確率下降;對于短文本的中文網頁,該方法則會因為樣本數量不足而難以準確識別。
基于字頻統計的識別方法。該類方法通過統計文本中常用漢字、詞語的數量來區分網頁文本編碼方式。該類方法的基本假設如下:如果按照某種編碼方式的中文字符出現多,則文本以該方式編碼的可能性大?;陬l率統計識別方法十分有效,但是其計算和存儲開銷都較大、效率不高。同時,如果常用漢字選擇不恰當,還會導致錯位編碼的現象出現,進而降低識別的準確率。
中文編碼特征和頻率統計方法的結合。這類方法結合了上述兩類方法的優勢,能夠準確識別中文文本的編碼方式。該類方法一般會首先根據文本的字符序列的數字特征識別編碼方式,如果無法識別,再采用分詞、頻率統計等方法輔助識別編碼方式。由于該類方法綜合了多種方法的優勢,其準確率和適用度得到顯著地提升。但也正因為其嘗試組合了多種方法,計算效率相對較低。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京林業大學,未經北京林業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910488932.8/2.html,轉載請聲明來源鉆瓜專利網。





