[發(fā)明專利]一種人民矛盾調(diào)解案例搜索和調(diào)解策略推薦方法有效
| 申請?zhí)枺?/td> | 201710285854.2 | 申請日: | 2017-04-27 |
| 公開(公告)號: | CN107220295B | 公開(公告)日: | 2020-02-07 |
| 發(fā)明(設(shè)計(jì))人: | 王開紅;李建元;陳濤;蔣伶華;范鴻俊;溫曉岳 | 申請(專利權(quán))人: | 銀江股份有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/35 |
| 代理公司: | 33241 杭州斯可睿專利事務(wù)所有限公司 | 代理人: | 王利強(qiáng) |
| 地址: | 310012 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 調(diào)解 策略提示 聚類類別 自動(dòng)生成 相關(guān)度 索引 搜索 預(yù)處理 全文搜索引擎 案例分析 案例數(shù)據(jù) 標(biāo)簽信息 界面展示 輸入查詢 數(shù)據(jù)收集 搜索結(jié)果 索引創(chuàng)建 特征聚類 向量表示 準(zhǔn)確率 分詞 脫敏 創(chuàng)建 矛盾 | ||
1.一種人民矛盾調(diào)解案例搜索和調(diào)解策略推薦方法,其特征在于:包括以下步驟:
步驟1:數(shù)據(jù)收集、預(yù)處理
收集人民調(diào)解案例信息,存儲在數(shù)據(jù)庫中,需要包含的字段包括:糾紛詳情、調(diào)解結(jié)果、調(diào)解詳情、調(diào)解時(shí)間、結(jié)束時(shí)間、調(diào)解人、所屬地區(qū)、調(diào)解機(jī)構(gòu)和評價(jià)字段,其中,糾紛詳情、調(diào)解詳情和評價(jià)是文本數(shù)據(jù),其他字段均為結(jié)構(gòu)化數(shù)據(jù);
對收集到的數(shù)據(jù)進(jìn)行預(yù)處理,確保調(diào)解結(jié)果、調(diào)解詳情字段不為空,將重復(fù)數(shù)據(jù)刪除;
步驟2:分詞及向量表示
創(chuàng)建矛盾調(diào)解專業(yè)領(lǐng)域詞典mediate.txt,將容易分詞錯(cuò)誤的詞,該詞包括矛盾調(diào)解專業(yè)領(lǐng)域詞匯,根據(jù)調(diào)解案例數(shù)據(jù)將無法正確切分的詞,加入矛盾調(diào)解專業(yè)領(lǐng)域詞典mediate.txt;另外漢語中還存在一些無意義的詞,將這些無意義、區(qū)分度不高的詞加入停用詞典stopword.txt,分詞時(shí)直接將停用詞去掉不作分析;
根據(jù)詞典mediate.txt和停用詞典stopword.txt將文本字段進(jìn)行分詞,將文本數(shù)據(jù)表示為向量的形式;
步驟3:TF_CDF特征聚類
由于矛盾調(diào)解案例無詳細(xì)類別信息,采用TF_CDF計(jì)算文本單詞權(quán)重,并進(jìn)行TF_CDF特征聚類獲案例詳細(xì)類別及類別關(guān)鍵詞,同時(shí)從聚類結(jié)果中獲取單詞TF_CDF值;
步驟4:自動(dòng)脫敏并進(jìn)行案例評分,生成脫敏典型案例集;
步驟5:生成調(diào)解策略提示
以帶有類別標(biāo)簽的典型案例作為分析數(shù)據(jù),某一個(gè)類別按照以下過程生成調(diào)解策略:
(5.1)獲取帶有類別標(biāo)簽的典型案例集,提取調(diào)解策略字段;
(5.2)調(diào)解策略有一二三條例標(biāo)識,按照標(biāo)識將調(diào)解策略斷開,形成調(diào)解條例;
(5.3)將調(diào)解條例進(jìn)行TF_CDF聚類分析,并提取調(diào)解條例的關(guān)鍵詞;
(5.4)對調(diào)解條例進(jìn)行類別評分,評分依據(jù)包括類別中包含調(diào)解條例的條數(shù)、具有相同關(guān)鍵字的調(diào)解條例在類別中所占的比例;
(5.5)對調(diào)解條例進(jìn)行評分,評分依據(jù)包括:條例中類別關(guān)鍵詞出現(xiàn)的個(gè)數(shù)和次數(shù)和文本的質(zhì)量;
(5.6)將調(diào)解條例類別評分降序排序,提取評分較高的類別,在這些類別中提取分值高的調(diào)解條例,作為調(diào)解策略提示信息,保存在數(shù)據(jù)庫中;
步驟6:創(chuàng)建索引及計(jì)算相關(guān)度
全文搜索引擎的核心包括索引創(chuàng)建和相關(guān)度計(jì)算,將步驟4中的典型案例數(shù)據(jù)和得到的聚類類別及步驟5中調(diào)解策略提示同步到elasticsearch創(chuàng)建索引;
步驟7:搜索結(jié)果及界面展示
用戶輸入查詢內(nèi)容,獲得相似典型案例、案例類別及類標(biāo)簽信息、調(diào)解策略推薦,并自動(dòng)生成相似案例分析報(bào)告;
所述步驟3中,對矛盾調(diào)解中“案件詳情”字段進(jìn)行特征聚類步驟如下所示:
(3.1)初始值確定
人民矛盾調(diào)解“案例詳情”可聚為k類,共n條矛盾案例,構(gòu)成語料庫D={d1,d2,....,dn},這里語料庫是指所有案例中的“案件詳情”字段信息的集合,d是組成語料庫的單個(gè)“案件詳情”信息,將語料庫中文本進(jìn)行分詞,獲得的不重復(fù)單詞為{t1,t2,....,tN};
(3.2)按照余弦相似度將“案件詳情”分配到最近鄰聚類
采用余弦相似度作為聚類的度量標(biāo)準(zhǔn),如公式(1)所示:
其中,是案件di距離各個(gè)聚類中心的最小余弦距離,即案件di屬于j類,是第j個(gè)聚類中心;
(3.3)更新TF_CDF模型
計(jì)算聚類的類內(nèi)離散度E,如果E小于初始類內(nèi)離散度的一半E0/2,則更新TF_CDF;如果類內(nèi)離散度E大于E0/2則跳過步驟(3.3);按照公式(2)計(jì)算單詞在各類中分布的熵:
其中,是j類文檔中出現(xiàn)單詞wp的文檔占j類文檔的比例,是類j中包含單詞wp的文檔數(shù)量,cwj是類j中的文檔總數(shù),H(wp)是單詞wp在k類中的熵;
某個(gè)單詞wp的TF_CDF計(jì)算如公式(3)所示:
其中,TFp是文檔中第p個(gè)單詞在文本i中的詞頻,DFp是指語料庫中包含這個(gè)單詞的文檔數(shù)量,q是文本i中包含的單詞個(gè)數(shù),分母H(wp)是單詞的熵,ln()是自然對數(shù)函數(shù),ε是一個(gè)較小值;
(3.4)更新聚類中心:將每個(gè)類中文本向量的均值作為新的聚類中心;
(3.5)重復(fù)步驟(3.2)~(3.4),直到聚類中心不再變化,則TF_CDF值不再變化,得到k個(gè)聚類和TF_CDF模型;
(3.6)類標(biāo)簽提取,聚類完成后,提取每個(gè)類別中單詞TF_CDF較高的幾個(gè)詞作為類別標(biāo)簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于銀江股份有限公司,未經(jīng)銀江股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710285854.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 界面自動(dòng)生成方法和界面自動(dòng)生成系統(tǒng)
- 數(shù)據(jù)自動(dòng)生成方法以及數(shù)據(jù)自動(dòng)生成系統(tǒng)
- 程序自動(dòng)生成裝置和程序自動(dòng)生成方法
- 基于ATE的測試程序自動(dòng)生成方法及ATE測試方法
- 報(bào)告自動(dòng)生成方法及自動(dòng)生成系統(tǒng)
- 醫(yī)囑的自動(dòng)生成裝置和自動(dòng)生成方法
- 病歷的自動(dòng)生成方法和自動(dòng)生成裝置
- 自動(dòng)本體生成的方法、系統(tǒng)和介質(zhì)
- 自動(dòng)代碼生成
- 自動(dòng)配置生成





