[發明專利]一種基于預訓練模型的政務文件歸屬省份分類方法在審
| 申請號: | 202111470389.2 | 申請日: | 2021-12-03 |
| 公開(公告)號: | CN114153803A | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 沈超;朱皓宬;周亞東;劉曉明 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F16/16 | 分類號: | G06F16/16;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 段俊濤 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 訓練 模型 政務 文件 歸屬 省份 分類 方法 | ||
本發明一種基于預訓練模型的政務文件歸屬省份分類方法,步驟為:1)從csv和excel文件中提取特征字典;2)對特征字典中全部文本生成句向量;3)對句向量進行地區實體識別訓練,得到地區命名實體識別模型;4)進行地區?省份映射訓練,得到地區?省份映射模型。本發明所提出的基于預訓練模型政務類csv、excel文件歸屬省份的分類方法能夠有效地對政務類csv、excel文件進行中國省份文件分類,并有效的避免了同一文件內部的省份重疊問題,預測結果準確率高、誤差小,計算復雜度低,有很高的實用價值。
技術領域
本發明屬于人工智能技術領域,特別涉及一種基于預訓練模型的政務文件歸屬省份分類方法。
背景技術
文本分類用電腦對文本集(或其他實體或物件)按照一定的分類體系或標準進行自動分類標記。它根據一個已經被標注的訓練文檔集合,找到文檔特征和文檔類別之間的關系模型,然后利用這種學習得到的關系模型對新的文檔進行類別判斷。文本分類從基于知識的方法逐漸轉變為基于統計和機器學習的方法。
文本分類一般包括了文本的表達、分類器的選擇與訓練、分類結果的評價與反饋等過程,其中文本的表達又可細分為文本預處理、索引和統計、特征抽取等步驟文本分類問題與其它分類問題沒有本質上的區別,其方法可以歸結為根據待分類數據的某些特征來進行匹配,當然完全的匹配是不太可能的,因此必須(根據某種評價標準)選擇最優的匹配結果,從而完成分類。
后來興起過一段時間的知識工程的方法則借助于專業人員的幫助,為每個類別定義大量的推理規則,如果一篇文檔能滿足這些推理規則,則可以判定屬于該類別。但這種方法的缺點仍然明顯,例如分類的質量嚴重依賴于這些規則的好壞,也就是依賴于制定規則的“人”的好壞;再比如制定規則的人都是專家級別,人力成本大幅上升常常令人難以承受;而知識工程最致命的弱點是完全不具備可推廣性,一個針對金融領域構建的分類系統,如果要擴充到醫療或社會保險等相關領域,則除了完全推倒重來以外沒有其他辦法,常常造成巨大的知識和資金浪費。
發明內容
為了克服上述現有技術的缺點,針對政務文件省份標簽分類問題,本發明的目的在于提供一種基于預訓練模型的政務文件歸屬省份分類方法,能夠對政務類csv、excel文件所歸屬的省份進行分類,并有效避免了同一文件內部的省份重疊問題。
為了實現上述目的,本發明采用的技術方案是:
一種基于預訓練模型的政務文件歸屬省份分類方法,所述政務文件為csv和/或excel文件,分類方法包括以下步驟:
步驟1:對政務文件,從文件名、表頭、行屬性、列屬性以及表格全文五個維度進行特征提取,生成對應的特征字典;
步驟2:利用預訓練模型中的自編碼器將特征字典中的文本數據生成語義信息的嵌入向量,捕捉字與字之間的語義貢獻關系,并由預訓練模型Bert的內置函數提供字與字的位置嵌入信息;將語義信息與位置嵌入信息整合,生成特征字典中文本數據的句向量;
步驟3:利用對比文件2得到的句向量,訓練得到地區命名實體識別模型model1;
步驟4:利用步驟3訓練好的地區命名實體識別模型model1,提取出所有特征字典中的地區,并依據中國行政區規劃表將之打上對應的省份標簽,進行地區-省份映射的訓練,得到地區-省份映射模型model2;
步驟5:利用model1、model2,對新的excel、csv文件進行省份標簽分類。
在一個實施例中,所述步驟1包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111470389.2/2.html,轉載請聲明來源鉆瓜專利網。





