[發明專利]面向基層治理的事件自動分撥方法有效
| 申請號: | 202110862279.4 | 申請日: | 2021-07-29 |
| 公開(公告)號: | CN113535959B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 陳鋼;佘祥榮;丁夢婷 | 申請(專利權)人: | 長三角信息智能創新研究院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/29;G06F16/38;G06F40/279;G06F18/25;G06N3/08;G06N3/04;G06Q50/26 |
| 代理公司: | 安徽知問律師事務所 34134 | 代理人: | 平靜 |
| 地址: | 241000 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 基層 治理 事件 自動 分撥 方法 | ||
1.一種面向基層治理的事件自動分撥方法,其特征在于,包括:
步驟1、基于統一的標準地址庫構建地名地址基因庫,使用自定義三元組表示地址基因,并構建樹集合以表征地址基因之間的層次關系;包括:
步驟1a、利用統計學特征確定標準地址庫中地址的落差點,通過遞增切分的方法對遞增的短語在整個地址庫中的數量進行統計;地址元素的使用頻次會隨地址描述逐漸精確而逐漸降低,當待判斷短語后綴超過落差點后,對應的短語在整個地址庫中出現的數量將發生明顯下降,據此劃分出落差點集合M;
步驟1b、按照地址構成方式的規則設計決策樹,然后根據決策樹對每一個落差點mi∈M是否構成后綴詞或后綴點做出判斷,依據判定成功的后綴點進行分詞,并對兩個后綴點之間的地址要素加以記錄;
步驟1c、經過分詞后,標準化的地址描述所包含的地址要素被劃分為專有地址部分與通配地址部分,同時獲得一個包含專有地址名詞基因的詞表WordList;針對專有地址部分,基于標準地址自身的前后文關系,結合地址信息本身所包含的層次,為提取后的專有地名元素賦予先后序關系標記,構成形式如(id,elei,seqmarki)的三元組,其中,id表示對地址元素的唯一標識,elei表示專有地名元素,seqmarki是以地址元素所屬行政區劃層級表示的先后序標記;
針對每一條地址,將對應的三元組元素按前后序關系構建成一顆子樹Treei,將每一棵子樹完全相同三元組的節點進行合并,合并后的若干棵樹構成的集合TreeSet構成了一個基本的地名地址基因庫AddressDB,其中包含以地理要素為基礎構建的地名地址基因及其對應的層次關系;
步驟1d、利用構建好的地名地址基因庫對事件描述全文進行要素抽取,使用獲得的詞表WordList與全文進行匹配,提取其中的專有地址基因集D1;針對“號”、“號樓”、“棟”、“幢”地址通配名進行逆向增字匹配,匹配到通配名后向前判斷通配名之前的字符是否為阿拉伯數字、以漢字表達的數字或英文字母,符合的話則將其加入匹配結果并繼續判斷,直到判斷為否為止,構建通配地址基因集D2;
對集合D1中的兩個相鄰元素d1、d2,兩個元素在事件描述文本中的對應起始位置loc若滿足則判定兩元素為相鄰,反之判定為不相鄰;
對相鄰的基因元素,利用地名地址基因庫中專有地址基因三元組之中包含的先后續標記關系seqmark對相鄰元素的完整程度進行判斷,若兩個相鄰元素的標記之間存在缺失值,則證明兩個地理元素之間存在要素缺失,根據構建出的地址基因庫中的三元組樹從上到下搜索,對不符合條件的相鄰地址基因進行補充,組裝成新的完整地名地址基因,作為事件中提取得到的地名地址信息;
步驟2、抽取事件地理要素;具體為:將社基層治理實踐中包含的元素劃分為時間元素、地理元素、事件元素與其他元素四類,使用地名地址基因對內容中包含的地址信息進行提取,而后對相鄰的地理元素進行完整性判斷,并將不完整的地址基因擴充為完整基因集,進一步合并后將每一個地址基因擴充成標準化地址,基于該地址匹配結果將該事件擬分撥給對應網格下的社區管理人員處置;
步驟3、提取事件描述關鍵詞;包括:
步驟3a、對事件描述進行句子分割并使用jieba分詞進行分詞處理得到documenttokens和sentencetokens,并將分詞后的token進行詞性標注得到帶有詞性標簽的labeltoken序列;
步驟3b、使用NPchunker根據詞性標簽從labeltoken序列中提取名詞token(NP),得到的NP作為候選關鍵詞;
步驟3c、將所有document tokens使用XLNet生成詞向量,再使用SIF權重將詞向量組成word level的文本向量;
步驟3d、首先,將所有sentence tokens使用XLNet生成詞向量,使用SIF權重將詞向量組成多個句向量;其次,根據文本的內容層次分布,使用加權平均的方法將多個句向量組合成sentencelevel的文本向量;最后,將wordlevel和sentencelevel的文本向量加權組成documentvector;
步驟3e、將每個label token使用XLNet生成wordvector,計算與documentvector之間的距離,將此距離視為候選關鍵字與文檔主題之間的相似度,選擇最相似的候選關鍵詞的前N個作為最終關鍵詞;
步驟4、構建歷史事件案例庫;具體為:使用步驟3中的技術對文本型的事件描述進行關鍵詞提取,將關鍵詞作為事件案例的標簽,并對標簽進行編碼處理,從而事件案例可以表示成:標簽編碼集合,事件描述,事件解決方案描述,效果描述,實現對事件案例的快速檢索;
步驟5、計算事件相似度;包括:
步驟5a、選取原文中與標準摘要計算ROUGE得分最高的一句話加入候選集合,接著繼續從原文中進行選擇,保證選出的摘要集合ROUGE得分增加,直至無法滿足該條件;得到的候選摘要集合對應的句子設為1標簽,其余為0標簽;采用上述數據訓練一個二分類模型作為句子重要性判別模型,或者使用強化學習、圖神經網絡對句子進行打分的方法判別句子重要性;
步驟5b、使用上述模型對事件描述文本進行文本分類,或者使用強化學習、圖神經網絡對句子進行打分,將重要性高的句子作為文本摘要的輸入文本,采用預訓練語言模型對輸入文本進行wordlevel的Embedding和sentencelevel的Embedding;
步驟5c、以有監督的訓練方式,使用融合word level和sentence level的多層次Embedding數據訓練一個融合注意力機制和指針生成網絡的seq2seq結構的文本摘要模型,最終利用該模型計算事件描述的文本摘要;
步驟5d、對兩個事件描述的文本摘要進行相似度計算,采用預訓練語言模型提取文本摘要的詞向量,結合SIF權重計算文本摘要的句向量;計算兩個事件描述文本摘要句向量的距離,將此距離視為兩個事件描述的全文相似度;
步驟6、事件自動分撥,包括:
步驟6a、對待處理的新事件經過步驟3對文本型的事件描述進行關鍵詞提取,將關鍵詞作為事件的標簽,并對標簽進行編碼處理,得到待處理事件表示:標簽編碼集合,事件描述;用標簽編碼集合中的每個標簽編碼在歷史事件案例庫中進行查詢,查找包含待處理事件標簽的所有歷史事件案例作為候選集;
步驟6b、經過步驟5對候選集中的所有事件描述與待處理的事件描述進行全文的相似度計算,得到根據相似度排序的top N事件案例自動推送給社區管理人員;
步驟6c、社區管理人員根據提供的案例處理當前事件,形成當前事件的解決方案,當前的事件可以表示成:標簽編碼集合,事件描述,事件解決方案描述;
步驟6d、將當前事件存入基層治理歷史事件案例庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長三角信息智能創新研究院,未經長三角信息智能創新研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110862279.4/1.html,轉載請聲明來源鉆瓜專利網。





