[發明專利]一種挖掘人民調解中新型矛盾糾紛的系統及方法有效
| 申請號: | 201910347456.8 | 申請日: | 2019-04-28 |
| 公開(公告)號: | CN110188092B | 公開(公告)日: | 2021-08-03 |
| 發明(設計)人: | 張江鑫;金涌濤 | 申請(專利權)人: | 浙江工業大學;銀江股份有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2458;G06Q50/18 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 挖掘 人民 調解 新型 矛盾 糾紛 系統 方法 | ||
1.一種挖掘人民調解中新型矛盾糾紛的系統,其特征在于,所述系統包括以下模塊:
數據獲取模塊,從一個或多個系統中獲取所有與人民調解案件相關的原始數據;
數據清洗模塊,對原始數據進行一種或多種清洗操作獲取有效數據;
網絡熱詞獲取模塊,獲取熱點詞匯,避免切詞過程中被過分切割或過濾;
特征向量構建模塊,對有效數據進行提取、換算、變形,引入案件地理信息,獲得表征人民調解案件的特征向量;特征向量是案件內容的數字化形式,案件內容中的每個詞都是組成該案件特征向量的子向量;
新型矛盾糾紛挖掘模塊,根據文檔集中各文檔的特征向量,挖掘出隱藏在文檔中新型矛盾糾紛;
熱門新型矛盾糾紛標注模塊,引入時序因素,添加時序篩選機制,篩選出熱門新型矛盾糾紛案件集,并自動添加對應標注。
2.如權利要求1所述的一種挖掘人民調解中新型矛盾糾紛的系統,其特征在于,所述數據清洗模塊的處理過程為:
2.1數據去重:識別從不同系統獲取的數據是否存在內容完全相同的數據,進行去重;
2.2去除缺失數據:當某一屬性存在數據缺失時,由于本系統的特殊性,無法進行填充處理,所以去除該屬性為空的那一條數據;
2.3去除無用數據:設置數據質量閾值,當數據質量低于閾值的時候刪除該條數據;其中,數據質量計算公式如下式所示:
M=(αF+βS+μD+ωK)×Len
其中,M為數據質量,F為歸一化處理后的申請人完整度,S為歸一化處理后的案件描述完整度,D為歸一化處理后的案件解決方案完整度,K為歸一化處理后的案件時間地點完整度,Len為歸一化處理后的案件長度,α,β,μ,ω為各項指標的系數,歸一化方法選用最大最小法;
2.4去除無用內容,找出案件內容中存在的固定格式,去除普遍存在的冗余內容,避免這些冗余的內容對后續的算法產生影響;
2.5統一數據水平名稱,通過頻數統計觀察數據中存在的水平名稱,然后通過字典將含義相同的字段進行替換。
3.如權利要求1或2所述的一種挖掘人民調解中新型矛盾糾紛的系統,其特征在于,所述網絡熱詞獲取模塊中存儲有用詞字典,網絡熱詞獲取模塊自動獲取各網絡數據源中的熱點詞匯,若獲取的熱點詞匯已存在于有用詞字典,則不再重復添加;若獲取的熱點詞匯不存在于有用詞字典,將其與有用詞字典中已有詞進行相似度比較,若相似度大于相似度閾值,則不再添加;若不滿足上述兩種情況,則將該熱點詞匯添加至有用詞字典。
4.如權利要求1或2所述的一種挖掘人民調解中新型矛盾糾紛的系統,其特征在于,所述特征向量構建模塊的處理過程為:
3.2.1中文詞語切割:將一長段的中文句段,分離切割成字、詞和短語的形式,去除無用的詞,保留中文句段中能夠反映其主要內容的主干部分;
3.2.2特征向量計算:將案件集的案件內容切詞后得到一個數據集,通過word2vec算法進行向量化處理,終得到反映整個案件集的向量集,每一個案件的案件內容對應一個向量集中的向量,同時引入案件的地理信息,經過變換與計算后添加至每個案件對應向量。
5.如權利要求1或2所述的一種挖掘人民調解中新型矛盾糾紛的系統,其特征在于,新型矛盾糾紛挖掘模塊中,“挖掘新型矛盾糾紛”,具體是指,采用離群點檢測模型將不同于主體內容的案件篩選剝離,經過多次迭代得到新型矛盾糾紛,最后通過人工判斷,定義新型矛盾糾紛的名稱;過程如下:
5.1離群點檢測模型:FindCBLOF算法計算每個向量基于假設簇的局部離群點因子,通過統計學方法定義向量和簇之間的相似性,即向量屬于簇的概率;然后進行分簇,找出word2vec算法輸出的向量集中的簇,并把它們按大小降序排列;FindCBLOF假定大部分向量都不是離群向量,它使用一個參數來區別大簇和小簇以得到離群點;
5.2迭代模塊:將分離出來的離群向量有限次地輸入離群點檢測模型,每一次迭代都輸出離群向量集對應的文本集,直至結果到達某一理想閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學;銀江股份有限公司,未經浙江工業大學;銀江股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910347456.8/1.html,轉載請聲明來源鉆瓜專利網。





