[發明專利]用于支撐多格式統計年鑒數據抓取的映射表格計算方法在審
| 申請號: | 202011278859.0 | 申請日: | 2020-11-16 |
| 公開(公告)號: | CN112464062A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 王林鈺;陳浩;朱迪 | 申請(專利權)人: | 國網(蘇州)城市能源研究院有限責任公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06K9/62;G06F16/84;G06F40/289;G06F40/216;G06N3/04;G06N3/08 |
| 代理公司: | 南京源古知識產權代理事務所(普通合伙) 32300 | 代理人: | 鄭宜梅 |
| 地址: | 215000 江蘇省蘇州*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 支撐 格式 統計 年鑒 數據 抓取 映射 表格 計算方法 | ||
1.用于支撐多格式統計年鑒數據抓取的映射表格計算方法,用于將統計年鑒中的數據經過數據抓取至含有抓取目標的映射表格;其特征在于:包括映射表格數據項名稱設置模塊、映射表格與數據抓取目錄連接模塊、映射表格與統計年鑒連接模塊;
映射表格數據項名稱設置模塊用于根據抓取目錄中的抓取目標名稱抓取統計年鑒中的與抓取目標對應的數據項名稱語句相同或相似的數據項,并使用被抓取的統計年鑒中的數據項名稱語句來表述數據抓取目錄中的抓取目標名稱;
映射表格與數據抓取目錄連接模塊用于確定映射表格中的每一個數據項名稱準確對應到數據抓取目錄中的唯一的抓取目標名稱,而且數據抓取目錄中的每一個抓取目標名稱對應到映射表格中的唯一的數據項名稱;
映射表格與統計年鑒連接模塊用于根據映射表格的數據項名稱確定統計年鑒中需要抓取的數據,以及需要抓取的數據通過其數據項名稱能夠準確對應到映射表格中的唯一的數據項名稱。
2.根據權利要求1所述的用于支撐多格式統計年鑒數據抓取的映射表格計算方法,其特征在于:映射表格中的數據項名稱的編寫方法具體為,首先根據數據抓取目錄中的抓取目標名稱知道抓取目標名稱的語言含義,其次在被抓取的統計年鑒中找到與抓取目標名稱的語言含義相同的數據項名稱,最后把從統計年鑒中找到的數據項名稱填寫入映射表格,作為映射表格的數據項名稱。
3.根據權利要求1所述的用于支撐多格式統計年鑒數據抓取的映射表格計算方法,其特征在于:映射表格與數據抓取目錄建立對應的方法具體為:對數據抓取目錄中的每一個抓取目標名稱設定唯一的編碼,之后給映射表格中的數據項名稱設定編碼;映射表格中的每一個數據項名稱的編碼與該數據項名稱對應到數據抓取目錄中唯一的抓取目標名稱的編碼相同,而且任意兩個不同的數據項名稱的對應的編碼不同的;根據編碼,映射表格中的每一個數據項名稱能夠準確對應到數據抓取目錄中的唯一的抓取目標名稱,而且數據抓取目錄中的每一個抓取目標名稱對應到映射表格中唯一的數據項名稱。
4.根據權利要求1所述的用于支撐多格式統計年鑒數據抓取的映射表格計算方法,其特征在于:映射表格的數據項名稱與統計年鑒中需要抓取的數據建立對應的方法具體為:采用語句相似度計算方法來計算統計年鑒中每一個數據對應的數據項名稱語句與映射表格中每一個數據項名稱語句的相似度值,然后將映射表格中的數據項名稱與統計年鑒中與其相似度值最高的數據項相對應;其中語句相似度計算步驟包括以下步驟:
步驟1:獲取要計算相似度值的兩個語句即語句A與語句B;
步驟2:使用word2vec方法,將語句A和語句B均轉化為兩個詞向量A,B;
步驟3:使用余弦相似度計算公式計算得到兩個詞向量A,B的相似度值Similarity(A,B),其中余弦相似度計算公式為:
上式中,表示向量A與B的各個分量;
步驟4:映射表格中的數據項名稱和統計年鑒中與其相似度值最高的數據項建立對應 。
5.根據權利要求4所述的用于支撐多格式統計年鑒數據抓取的映射表格計算方法,其特征在于:步驟2中word2vec方法用于把一個語句轉化為一個詞向量;所述word2vec方法中使用BosonNLP分詞方法、Huffiman編碼方法、CBOW神經網絡模型;word2vec方法具體計算步驟如下:
步驟21:使用BosonNLP分詞方法將一個語句A拆解為一個詞語組A;
步驟22:使用Huffiman編碼方法將一個詞語組A編碼為一個詞向量組{A};
步驟23:使用CBOW神經網絡模型將一個詞向量組{A}轉化為一個詞向量A。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網(蘇州)城市能源研究院有限責任公司,未經國網(蘇州)城市能源研究院有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011278859.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:藍牙透明中繼器
- 下一篇:一種量子數字簽名方法及系統





