[發明專利]一種基于預訓練模型的政務文件歸屬省份分類方法在審
| 申請號: | 202111470389.2 | 申請日: | 2021-12-03 |
| 公開(公告)號: | CN114153803A | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 沈超;朱皓宬;周亞東;劉曉明 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F16/16 | 分類號: | G06F16/16;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 段俊濤 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 訓練 模型 政務 文件 歸屬 省份 分類 方法 | ||
1.一種基于預訓練模型的政務文件歸屬省份分類方法,所述政務文件為csv和/或excel文件,其特征在于,分類方法包括以下步驟:
步驟1:對政務文件,從文件名、表頭、行屬性、列屬性以及表格全文五個維度進行特征提取,生成對應的特征字典;
步驟2:利用預訓練模型中的自編碼器將特征字典中的文本數據生成語義信息的嵌入向量,捕捉字與字之間的語義貢獻關系,并由預訓練模型Bert的內置函數提供字與字的位置嵌入信息;將語義信息與位置嵌入信息整合,生成特征字典中文本數據的句向量;
步驟3:利用對比文件2得到的句向量,訓練得到地區命名實體識別模型model1;
步驟4:利用步驟3訓練好的地區命名實體識別模型model1,提取出所有特征字典中的地區,并依據中國行政區規劃表將之打上對應的省份標簽,進行地區-省份映射的訓練,得到地區-省份映射模型model2;
步驟5:利用model1、model2,對新的excel、csv文件進行省份標簽分類。
2.根據權利要求1所述基于預訓練模型的政務文件歸屬省份分類方法,其特征在于,所述步驟1包括:
步驟1.1:將csv文件中的表格表示為具有五個鍵值對的字典,字典的五個鍵分別為name_chineseall,heading,row_attribute,column_attribute和allcsv_chinese,其中name_chineseall表示原文件名中的全部中文,heading表示原文件中的表頭,row_attribute表示原文件表格中的全部行屬性,column_attribute表示原文件表格中的全部列屬性,allcsv_chinese表示原文件中的全部中文內容;
步驟1.2:對excel文件,根據其中所包含的sheet數量n,先生成n個臨時csv文件,然后依據步驟1.1中的方法,對所有臨時csv文件分別生成一個特征字典,將得到的n個特征字典按照鍵將對應的值全部連結起來,生成一個總的特征字典,該總的特征字典即為該excel文件所對應的特征字典;
步驟1.3:將所有政務文件和與其對應的特征字典按照索引順序存入json文件中。
3.根據權利要求2所述基于預訓練模型的政務文件歸屬省份分類方法,其特征在于,所述步驟2包括:
步驟2.1:對每個特征字典中五個鍵所對應的值進行分字,并對分完字后的文本數據t隨機生成15%的mask數據,在文本數據的開頭和結尾處增加表示句子開始和結束的標識符,通過被mask的字符兩側的未被mask的字符來預測被mask的字符,而用來預測被mask的字符的不包含位置信息的中間向量即為被mask的字符的語義信息嵌入向量,即不包含位置信息的嵌入向量;
步驟2.2:步驟2.1處理完的五個鍵所對應的值,對每個字符的位置生成位置索引嵌入信息,并與步驟2.1生成的語義信息嵌入向量整合,最終分別生成五個鍵所對應的值的句向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111470389.2/1.html,轉載請聲明來源鉆瓜專利網。





