[發(fā)明專利]基于區(qū)域編碼的網(wǎng)絡(luò)信息歸屬地索引標(biāo)記方法在審
| 申請?zhí)枺?/td> | 201710298793.3 | 申請日: | 2017-04-28 |
| 公開(公告)號: | CN107133311A | 公開(公告)日: | 2017-09-05 |
| 發(fā)明(設(shè)計)人: | 董鄭江;周銀行;楊東;胡淦;陳煥;鄭中華 | 申請(專利權(quán))人: | 安徽博約信息科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京輕創(chuàng)知識產(chǎn)權(quán)代理有限公司11212 | 代理人: | 沈尚林 |
| 地址: | 230000 安徽省合肥市高新*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 區(qū)域 編碼 網(wǎng)絡(luò) 信息 屬地 索引 標(biāo)記 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息實體識別的分類和標(biāo)記技術(shù),尤其涉及一種基于區(qū)域編碼的網(wǎng)絡(luò)信息歸屬地索引標(biāo)記方法,可應(yīng)用于大數(shù)據(jù)領(lǐng)域的信息處理,主要用于信息歸屬地域的標(biāo)識。
背景技術(shù)
網(wǎng)絡(luò)信息是指通過計算機網(wǎng)絡(luò)可以利用的各種信息資源的總和。具體的說是指所有以電子數(shù)據(jù)形式把文字、圖像、聲音以及動畫內(nèi)容的信息通過網(wǎng)絡(luò)通信共享出來的數(shù)據(jù)資源。中文地名的自動識別是命名實體識別任務(wù)中難度較大的任務(wù)之一,目的是從中文文本中自動準(zhǔn)確提取地理專用名詞。而這些文本信息中所包含或隱含的地域名稱,往往在識別的時候不大準(zhǔn)確,導(dǎo)致信息的歸屬地標(biāo)記也較為困難。目前常用的文本信息歸屬地名稱的標(biāo)記方法有:
1)人工標(biāo)記法
人工的從網(wǎng)頁信息中提取文本信息的關(guān)聯(lián)地域,主要憑借人的知識體系、文本內(nèi)容的語義解讀能力以及地域關(guān)鍵詞的查找方法來完成文本信息中所涉及歸屬地的分辨。歸屬地的索引標(biāo)記往往采用最為直接的地域名稱標(biāo)注來分門別類。
2)網(wǎng)站備案號標(biāo)記法
采用基于網(wǎng)站備案號的方法來進行地域標(biāo)記,根據(jù)網(wǎng)站下方的備案標(biāo)識號碼來判斷網(wǎng)站屬地,那么在此網(wǎng)站上發(fā)布的內(nèi)容則被視為與網(wǎng)站同處歸屬地。則歸屬地的索引往往標(biāo)記為備案號的地域簡稱。
現(xiàn)有技術(shù)的缺點如下:
1)人工標(biāo)記法對人的要求高,執(zhí)行人的知識體系直接影響標(biāo)記結(jié)果,主觀影響因素多,雖然正確率較高,但是成本和效率低下,不適合大數(shù)據(jù)時代的數(shù)據(jù)分類標(biāo)記處理,最致命問題的在于通過地名直接標(biāo)記法是無法匹配上級地域信息的,無法做到地域關(guān)聯(lián)。
2)相對人工標(biāo)記法,網(wǎng)站備案號標(biāo)記法雖然可以通過程序自動識別,去除人工干涉,但是其識別結(jié)果錯誤率較高。因為網(wǎng)站的地域往往與網(wǎng)站發(fā)表的信息內(nèi)容報道的歸屬地不一致。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種基于區(qū)域編碼的網(wǎng)絡(luò)信息歸屬地索引標(biāo)記方法。該方法通過構(gòu)建地域CODE碼標(biāo)識庫,來對網(wǎng)絡(luò)信息內(nèi)容涉及的歸屬地進行分類,然后通過對網(wǎng)頁內(nèi)容進行地名解析,結(jié)合詞典庫地域標(biāo)識CODE碼來對網(wǎng)站發(fā)布的信息內(nèi)容進行歸屬地CODE碼匹配,匹配到的CODE碼用來對網(wǎng)絡(luò)信息進行歸屬地標(biāo)記。
為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案是,基于區(qū)域編碼的網(wǎng)絡(luò)信息歸屬地索引標(biāo)記方法,包括以下步驟:
一、CODE碼字符串定義
行政區(qū)劃代碼,也稱行政代碼,它是國家行政機關(guān)的識別符號,一般執(zhí)行兩項國家標(biāo)準(zhǔn):《中華人民共和國行政區(qū)劃代碼》(GB/T2260-2007)和《縣以下行政區(qū)劃代碼編制規(guī)則》(GB/T10114-2003);行政代碼由6位到9位阿拉伯?dāng)?shù)字組成,行政代碼從左至右的含義是:
第一、二位表示省(自治區(qū)、直轄市、特別行政區(qū));
第三、四位表示市(地區(qū)、自治州、盟及國家直轄市所屬市轄區(qū)和縣的匯總碼);其中,01-20,51-70表示省直轄市;21-50表示地區(qū)(自治州、盟);
第五、六位表示縣(市轄區(qū)、縣級市、旗);01-18表示市轄區(qū)或地區(qū)(自治州、盟)轄縣級市;21-80表示縣(旗);81-99表示省直轄縣級市;
第七至九位表示鄉(xiāng)、鎮(zhèn)(街道辦事處)。
下例:
安徽省的行政代碼:340000;
合肥市的行政代碼:340100;
肥西縣的行政代碼:340123;
三河鎮(zhèn)的行政代碼:340123101;
那么,三河鎮(zhèn)CODE碼字符串定義則是由上級行政代碼與三河鎮(zhèn)的行政代碼組合而成,即為“340000340100340123340123101”。
同理,肥西縣的CODE碼為:340000340100340123;則,合肥市的CODE碼為:340000340100;安徽省CODE碼為行政代碼本身。
二、構(gòu)建地域詞典庫
手動創(chuàng)建地域詞典庫映射表,初始化錄入行政地區(qū)數(shù)據(jù),根據(jù)上述CODE碼字符串定義方法,將行政代碼轉(zhuǎn)化為CODE碼,并存入地域詞典庫中。
地域詞典庫包含主鍵id、地域名areaName、簡稱shortName、上級行政區(qū)parentId、經(jīng)度Ing、緯度lat、區(qū)域?qū)蛹塴evel和CODE碼八個字段。
四、待標(biāo)記文本解析
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽博約信息科技股份有限公司,未經(jīng)安徽博約信息科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710298793.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:僵尸網(wǎng)站的檢測方法
- 下一篇:一種電子簽章方法及裝置
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





