[發明專利]一種智能行政執法案例信息抽取和案由認定方法在審
| 申請號: | 202210171624.4 | 申請日: | 2022-02-24 |
| 公開(公告)號: | CN114547230A | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 賁晛燁;馮曉煒;李玉軍;周瑩;孫浩;謝霆軒 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/35;G06F16/34;G06F40/295;G06F40/30;G06N3/04;G06N3/08;G06Q50/18 |
| 代理公司: | 濟南金迪知識產權代理有限公司 37219 | 代理人: | 楊樹云 |
| 地址: | 250199 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 行政 執法 案例 信息 抽取 案由 認定 方法 | ||
1.一種智能行政執法案例信息抽取和案由認定方法,其特征在于,包括步驟如下:
A、數據集的構建:爬取行政處罰決定書,提取其中的文本內容,對文本內容中的短文本進行標注;
B、語料轉換:
將行政執法文書中所有長句按照標點符號分割為短句;
將步驟A數據集中標注的短文本根據標點符號進行分句;
在短文本中找到最長的短句,把這個最長的短句作為標準,從行政處罰文書中找出與這個最長的短句相似的句子,提取并保存,遞歸執行直到短文本中所有的語句都被執行過一次;
C、抽取數據預處理及向量化:
步驟B在行政執法文書中抽出了與標簽即短文本相似的語句;
對抽取出的文本進行過濾,將文本轉換成以空格分割的句子序列;將句子序列編碼索引;
對得到的文本數據進行全局平均池化之后再引入全詞Mask的BERT預訓練中文模型,補充平均池化,把分割的句子序列轉換為句子向量;
D、基于DGCNN的抽取模型的訓練:
將步驟B中在行政執法文書中抽出的與標簽即短文本的句子向量當作標簽,將行政執法文書整個文本生成的句子向量作為輸入,訓練抽取模型;
E、基于UniLM的短文本生成:
將通過訓練后的抽取模型抽取出來的行政執法文書的關鍵語句作為輸入,人工標注的短文本作為標簽,訓練生成模型;
F、輸入執法文書文本進行預測:
將需要轉化的行政執法文書通過步驟A至步驟C處理后,將得到的處理結果輸入訓練后的抽取模型,生成抽取結果并保存,抽取結果進一步輸入訓練后的生成模型,得到適合下游其他任務分析的短文本,最終得到抽取結果和適合下游其他任務分析的短文本。
2.根據權利要求1所述的一種智能行政執法案例信息抽取和案由認定方法,其特征在于,步驟A中,對文本內容進行標注,是指:從行政執法文書中提取所有需要的關鍵字段,并根據語義重新組合成新的一段僅包括關鍵目的信息的短文本;在行政處罰文書中對這些短文本進行標注。
3.根據權利要求1所述的一種智能行政執法案例信息抽取和案由認定方法,其特征在于,步驟B中,
將行政執法文書中所有長句按照標點符號分割為短句,具體是指:采用jieba分詞將行政執法文書文本根據標點符號分割成句子格式,并保存為列表中的元素;
將步驟A數據集中標注的短文本根據標點符號進行分句,具體是指:采用jieba分詞將標注的短文本分割成短句格式,并保存為數組格式;
提取數組中的最長的短句,在列表中的行政執法文書中進行匹配,提取列表中的行政執法文書中和最長的短句最相似的句子并保存,遞歸地執行此步驟,直到將數組中所有的句子都匹配一遍。
4.根據權利要求3所述的一種智能行政執法案例信息抽取和案由認定方法,其特征在于,提取列表中的行政執法文書中和最長的短句最相似的句子,具體實現過程如下:
假設x1是標注短文本序列X=[x1,x2,...xn]中的一個句子,ym是行政執法文書序列Y=[y1,y2,...ym]中的一個句子,則Flcs如式(1)所示:
式(1)中,RLCS是指召回率,是抽取出的文本與短文本中相同字的個數,與人工標簽即短文本中字的個數的比值;PLCS是指準確率,是指抽取出的文本與短文本中相同字的個數,與抽取出字的總個數的比值;FLCS就是ROUGE-L;
針對將標注短文本序列X中的一個句子xn與行政執法文書序列中的所有句子yj,j=1,2...m;計算FLCS,取使得FLCS分數最高的行政執法文書序列中的句子yk作為最相似語句并保存,遞歸地進行此步驟,直到標注短文本序列X中所有句子都匹配完成,將抽取結果保存為R,即為最相似的句子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210171624.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能助老椅
- 下一篇:一種自擾動小粒徑兼用機械氣力組合式集排器





