[發明專利]基于區域編碼的網絡信息歸屬地索引標記方法在審
| 申請號: | 201710298793.3 | 申請日: | 2017-04-28 |
| 公開(公告)號: | CN107133311A | 公開(公告)日: | 2017-09-05 |
| 發明(設計)人: | 董鄭江;周銀行;楊東;胡淦;陳煥;鄭中華 | 申請(專利權)人: | 安徽博約信息科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京輕創知識產權代理有限公司11212 | 代理人: | 沈尚林 |
| 地址: | 230000 安徽省合肥市高新*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 區域 編碼 網絡 信息 屬地 索引 標記 方法 | ||
1.基于區域編碼的網絡信息歸屬地索引標記方法,包括以下步驟:
一、CODE碼字符串定義
行政區劃代碼,也稱行政代碼,它是國家行政機關的識別符號,一般執行兩項國家標準:《中華人民共和國行政區劃代碼》(GB/T2260-2007)和《縣以下行政區劃代碼編制規則》(GB/T10114-2003);行政代碼由6位到9位阿拉伯數字組成,行政代碼從左至右的含義是:
第一、二位表示省(自治區、直轄市、特別行政區);
第三、四位表示市(地區、自治州、盟及國家直轄市所屬市轄區和縣的匯總碼);其中,01-20,51-70表示省直轄市;21-50表示地區(自治州、盟);
第五、六位表示縣(市轄區、縣級市、旗);01-18表示市轄區或地區(自治州、盟)轄縣級市;21-80表示縣(旗);81-99表示省直轄縣級市。
第七至九位表示鄉、鎮(街道辦事處)。
示例:
安徽省的行政代碼:340000;
合肥市的行政代碼:340100;
肥西縣的行政代碼:340123;
三河鎮的行政代碼:340123101;
那么,三河鎮CODE碼字符串的定義則是由上級行政代碼與三河鎮的行政代碼組合而成,即為“340000340100340123340123101”。
同理,肥西縣的CODE碼為:340000340100340123;則,合肥市的CODE碼為:340000340100;安徽省CODE碼為行政代碼本身。
二、構建地域詞典庫
手動創建地域詞典庫映射表,初始化錄入行政地區數據,根據上述CODE碼字符串定義方法,將行政代碼轉化為CODE碼,并存入地域詞典庫中。
地域詞典庫包含主鍵id、地域名areaName、簡稱shortName、上級行政區parentId、經度Ing、緯度lat、區域層級leve1和CODE碼八個字段。
三、待標記文本解析
選取任意網站中的一則報道內容,下載超文本標記語言源碼,然后過濾掉所有的標簽和特殊字符,最終形成干凈的文本內容;通過條件隨機場分詞技術對文本進行分詞,分成若干等分;利用隱馬爾科夫模型,對熟語料自動角色標注,統計單詞的角色頻次和角色的轉移概率,訓練出地域詞,并用“/ns”進行標記;多個地名詞取頻率最高的地名詞,頻率一樣的取最后一個,如果沒有則可以通過網站IP的備案查詢到歸屬地,作為文中提及地域的歸屬地。
四、創建索引標記
獲取網站信息中的地域后,從創建的地域詞典庫中讀取出相應的CODE碼,并給此篇內容標記上此歸屬地標識碼,存入到索引中,為后期提供數據查詢和統計使用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽博約信息科技股份有限公司,未經安徽博約信息科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710298793.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:僵尸網站的檢測方法
- 下一篇:一種電子簽章方法及裝置





