[發(fā)明專利]一種基于隨機(jī)森林技術(shù)的相似文件檢索方法有效
| 申請(qǐng)?zhí)枺?/td> | 201610265593.3 | 申請(qǐng)日: | 2016-04-25 |
| 公開(kāi)(公告)號(hào): | CN105930473B | 公開(kāi)(公告)日: | 2019-04-05 |
| 發(fā)明(設(shè)計(jì))人: | 張靜川;周宇;賈真 | 申請(qǐng)(專利權(quán))人: | 安徽富馳信息技術(shù)有限公司 |
| 主分類號(hào): | G06F16/953 | 分類號(hào): | G06F16/953 |
| 代理公司: | 合肥天明專利事務(wù)所(普通合伙) 34115 | 代理人: | 張祥騫;奚華保 |
| 地址: | 230088 安徽省合肥*** | 國(guó)省代碼: | 安徽;34 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 隨機(jī)森林 案件 查詢條件 檢索信息 相似矩陣 相似文件 特征樹(shù) 檢索 裁判 過(guò)濾條件 檢索結(jié)果 權(quán)重訓(xùn)練 輸入方式 條件選擇 有效檢索 綜合權(quán)重 決策樹(shù) 可視化 相似度 擬合 輸出 展示 統(tǒng)計(jì) | ||
1.一種基于隨機(jī)森林技術(shù)的相似文件檢索方法,其特征在于,包括以下步驟:
11)裁判文書(shū)的組織,將裁判文書(shū)按照案由分層分類組織;
12)構(gòu)造案件特征樹(shù),對(duì)于指定案由,篩選其公有特征和私有特征,并按特征間邏輯關(guān)系組織成樹(shù)形結(jié)構(gòu);
13)對(duì)案件特征樹(shù)進(jìn)行權(quán)重訓(xùn)練,采用隨機(jī)森林方法針對(duì)不同目標(biāo)進(jìn)行訓(xùn)練,計(jì)算出案件特征的綜合權(quán)重;所述的隨機(jī)森林方法針對(duì)不同目標(biāo)進(jìn)行訓(xùn)練包括以下步驟:
131)選取單一案由的裁判文書(shū)N份作為原始訓(xùn)練集,每個(gè)文書(shū)包含M個(gè)特征;
132)決策樹(shù)的構(gòu)造,對(duì)于分類目標(biāo)T,在原始訓(xùn)練集中隨機(jī)抽取n個(gè)文書(shū)為樣本,剩余N-n個(gè)文書(shū)為袋外數(shù)據(jù),在M個(gè)特征中隨機(jī)抽取m個(gè)特征,構(gòu)造一棵決策樹(shù);其中,m<M、n<N;
133)隨機(jī)森林F的構(gòu)造,對(duì)所有分類目標(biāo)T均進(jìn)行決策樹(shù)的構(gòu)造,構(gòu)成包含K個(gè)決策樹(shù)的隨機(jī)森林F;
134)調(diào)整m的數(shù)值,重復(fù)進(jìn)行決策樹(shù)的構(gòu)造和隨機(jī)森林F的構(gòu)造,直至隨機(jī)森林F的準(zhǔn)確率、召回率滿足設(shè)定要求;
135)對(duì)準(zhǔn)確率、召回率均滿足設(shè)定要求的隨機(jī)森林F的每一棵決策樹(shù),利用相應(yīng)袋外數(shù)據(jù)計(jì)算袋外數(shù)據(jù)誤差E0;
136)對(duì)此決策樹(shù)的特征X處加入隨機(jī)噪聲,重新計(jì)算袋外數(shù)據(jù)誤差E1;
137)計(jì)算特征X的絕對(duì)權(quán)重,其計(jì)算公式如下:
X(T)=∑(E1-E0)/K;
138)重復(fù)步驟135至步驟137,針對(duì)隨機(jī)森林F內(nèi)的所有特征均進(jìn)行絕對(duì)權(quán)重的計(jì)算;
139)對(duì)隨機(jī)森林F內(nèi)的全部特征的絕對(duì)權(quán)重進(jìn)行歸一化處理;
140)重復(fù)步驟132至步驟139,遍歷處理全部分類目標(biāo);
141)計(jì)算遍歷處理全部分類目標(biāo)所得的各特征權(quán)重均值并歸一化處理;
14)檢索信息的獲取,輸入檢索信息的過(guò)濾條件和查詢條件,輸入方式為條件選擇、包含條件的文字或整篇裁判文書(shū);
15)計(jì)算案件相似矩陣,根據(jù)檢索信息的過(guò)濾條件從特征樹(shù)集合中篩選有效特征樹(shù);根據(jù)檢索信息的查詢條件,利用權(quán)重樹(shù),采用加權(quán)曼哈頓距離方法計(jì)算有效特征樹(shù)集合中兩兩相似度,組成相似矩陣,并對(duì)結(jié)果進(jìn)行歸一化處理;
16)輸出檢索結(jié)果,從案件相似矩陣中獲取相似案件,找到與查詢條件最相似的n個(gè)案件或相似度大于s的案件,對(duì)此信息進(jìn)行統(tǒng)計(jì),并進(jìn)行可視化展示。
2.根據(jù)權(quán)利要求1所述的一種基于隨機(jī)森林技術(shù)的相似文件檢索方法,其特征在于,所述的構(gòu)造案件特征樹(shù)包括以下步驟:
21)定義公有特征,公有特征為案件一般屬性特征;
22)定義私有特征,私有特征為案件的特殊屬性;
23)根據(jù)特征之間的邏輯關(guān)系,將公有特征和私有特征組織成樹(shù)形結(jié)構(gòu),形成案件特征樹(shù)。
3.根據(jù)權(quán)利要求1所述的一種基于隨機(jī)森林技術(shù)的相似文件檢索方法,其特征在于,所述的計(jì)算案件相似矩陣包括以下步驟:
31)由案件特征樹(shù)、特征權(quán)重樹(shù)、查詢條件計(jì)算生成兩兩案件相似度的矩陣;
32)由過(guò)濾條件獲得有效案件,根據(jù)查詢條件獲得相應(yīng)特征取值及權(quán)重,計(jì)算查詢條件與案件、案件與案件的相似度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽富馳信息技術(shù)有限公司,未經(jīng)安徽富馳信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610265593.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于條件隨機(jī)森林的笑臉檢測(cè)器及方法
- 隨機(jī)森林模型訓(xùn)練的方法及模型訓(xùn)練控制系統(tǒng)
- 隨機(jī)森林模型訓(xùn)練方法及裝置
- 基于結(jié)構(gòu)化隨機(jī)森林編碼器的眼底視網(wǎng)膜血管分割方法
- 一種基于隨機(jī)森林模型的慢性肝病風(fēng)險(xiǎn)評(píng)估系統(tǒng)
- 基于改進(jìn)隨機(jī)森林方法的風(fēng)光發(fā)電出力的短期預(yù)測(cè)方法
- 交互式隨機(jī)森林子樹(shù)篩選方法、裝置、設(shè)備及可讀介質(zhì)
- 交互式隨機(jī)森林集成方法、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種基于深度森林的眼底圖像血管分割方法和系統(tǒng)
- 隨機(jī)森林的生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于案件信息的案件線索分析系統(tǒng)及方法
- 案件信息動(dòng)態(tài)導(dǎo)入方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種案件自動(dòng)授權(quán)方法及系統(tǒng)
- 獲取法律案件的審理期限的方法及裝置
- 數(shù)據(jù)聚類識(shí)別方法、裝置、計(jì)算機(jī)系統(tǒng)及可讀存儲(chǔ)介質(zhì)
- 案件串并方法及裝置
- 案件預(yù)判結(jié)果生成方法、裝置、電子設(shè)備
- 一種公安案件管理系統(tǒng)及方法
- 一種案件分配方法、裝置、設(shè)備及介質(zhì)
- 基于案件預(yù)測(cè)價(jià)值和專員畫(huà)像的智能分案方法
- 一種非關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)查詢方法和裝置
- 查詢條件相似度確定方法、對(duì)象查詢方法及相關(guān)裝置
- 信息查詢方法及系統(tǒng)
- 一種查詢的緩存方法及裝置
- 基于可視化時(shí)間篩選器的查詢時(shí)間相關(guān)數(shù)據(jù)的方法
- 數(shù)據(jù)處理方法以及服務(wù)器
- 度量平臺(tái)數(shù)據(jù)查詢方法及裝置、可讀存儲(chǔ)介質(zhì)及終端
- 數(shù)據(jù)查詢方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 查詢方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)查詢方法和相關(guān)裝置
- 檢索信息傳送裝置
- 運(yùn)動(dòng)圖像內(nèi)容檢索信息管理裝置
- 動(dòng)態(tài)圖像內(nèi)容檢索信息管理裝置
- 信息檢索裝置、信息檢索系統(tǒng)以及信息檢索方法
- 信息檢索裝置、信息檢索方法及信息檢索程序
- 基于動(dòng)態(tài)屬性分析的信息檢索方法
- 政務(wù)信息檢索方法、系統(tǒng)及終端設(shè)備
- 基于搜索引擎的信息檢索方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種專利檢索方法、裝置、計(jì)算機(jī)設(shè)備和可存儲(chǔ)介質(zhì)
- 信息檢索方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)





