[發明專利]一種基于BERT的水生態環境問題分類及挖掘的方法與終端在審
| 申請號: | 202211257419.6 | 申請日: | 2022-10-14 |
| 公開(公告)號: | CN115617995A | 公開(公告)日: | 2023-01-17 |
| 發明(設計)人: | 林永清;徐能通;黃水木;單森華;戴詩琪;吳閩帆;吳弘毅;劉添強 | 申請(專利權)人: | 四創科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/0464;G06N3/08;G06F18/24;G06F18/214;G06F40/205;G06F40/289;G06F40/242;G06F16/9537;G06F16/951;G06Q50/26;G06F16/387 |
| 代理公司: | 福州市博深專利事務所(普通合伙) 35214 | 代理人: | 唐燕玲 |
| 地址: | 350000 福建省福州市晉安*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bert 水生 環境 問題 分類 挖掘 方法 終端 | ||
1.一種基于BERT的水生態環境問題分類及挖掘的方法,其特征在于,包括步驟:
S1、采集互聯網上與目標區域水生態環境相關的目標數據,并進行數據清洗和存儲;
S2、提取目標數據的地理信息和時間信息,并通過訓練好的BERT模型對目標數據根據問題標簽進行分類;
S3、根據分類結果以及各數據的時間信息和地理信息進行統計歸納,得到目標區域存在的水生態問題情況。
2.根據權利要求1所述的一種基于BERT的水生態環境問題分類及挖掘的方法,其特征在于,所述步驟S1和所述步驟S2之間,還包括步驟:
S11、提取目標區域中的行政區劃、建筑物、小區、設施及工廠名稱,構建本地化空間的地理信息詞典,并對目標區域按行政區劃進行網格化劃分;
所述步驟S2中目標數據的地理信息的提取具體為:
對于各個目標數據,判斷是否包含經緯度信息,若包含經緯度信息則根據經緯度信息將目標數據映射至對應的地圖網格中;
若不包含經緯度信息,則將目標數據輸入分詞模型進行分詞,并根據分詞結果和地理信息詞典進行匹配并映射至對應的地圖網格中。
3.根據權利要求2所述的一種基于BERT的水生態環境問題分類及挖掘的方法,其特征在于,所述步驟S11還包括步驟:
根據所述地理信息詞典,構建停用詞詞典。
4.根據權利要求1所述的一種基于BERT的水生態環境問題分類及挖掘的方法,其特征在于,所述步驟S2中目標數據的時間信息的提取具體為:
將目標數據輸入分詞模型進行分詞,提取其中詞性為數值和時間的詞匯,并通過正則表達式提取,得到時間信息。
5.根據權利要求1所述的一種基于BERT的水生態環境問題分類及挖掘的方法,其特征在于,所述BERT模型的訓練具體為:
提取預設數量的所述目標數據,根據所述問題標簽進行標注,并按照預設比例隨機劃分為訓練集和校驗集;
基于Transformer對所述目標數據的文本進行編碼,將文本序列轉化為詞向量;
載入BERT預訓練模型,配置超參數,并設置根據所述問題標簽設置所述BERT預訓練模型的分類類別;
將所述訓練集的數據輸入所述BERT預訓練模型進行訓練,并使用所述校驗集的數據進行校驗,對所述超參數進行微調,得到訓練后的BERT模型。
6.根據權利要求1所述的一種基于BERT的水生態環境問題分類及挖掘的方法,其特征在于,所述步驟S3包括步驟:
對于不同的地圖網格的目標數據,提取出其中出現頻率最高的問題標簽,得到該地圖網格的區域高頻問題;
根據所述問題標簽,按季節和月份對所有地圖網格的目標數據進行統計,提取各季節或月份出現次數超過預設閾值的問題標簽,得到同期高頻問題;
對各地圖網格,分別提取各月份出現次數超過預設閾值的所述問題標簽,并進一步提取出其中連續出現超過預設月份數量閾值的所述問題標簽,得到該地圖網格的連續高頻問題;
對各地圖網格,分別提取各月份出現次數超過預設閾值的所述問題標簽,并進一步提取出其中間斷重復出現的所述問題標簽,得到該地圖網格的間斷重復問題。
7.根據權利要求1所述的一種基于BERT的水生態環境問題分類及挖掘的方法,其特征在于,所述步驟S1具體為:
采集互聯網上針對區域的與水生態環境的相關問題或新聞報道內容,進行數據清洗后存入數據庫中,并采集公眾舉報信息和歷史巡查督查文本進行解析,提取出其中與所述水生態問題相關的文本內容進行存儲。
8.一種基于BERT的水生態環境問題分類及挖掘的終端,包括處理器、存儲器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現以上權利要求1-7任一所述的一種基于BERT的水生態環境問題分類及挖掘的方法中的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四創科技有限公司,未經四創科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211257419.6/1.html,轉載請聲明來源鉆瓜專利網。





