[發明專利]一種基于寬度隨機森林的句法依存模型、訓練方法和分析方法有效
| 申請號: | 201910494216.0 | 申請日: | 2019-06-06 |
| 公開(公告)號: | CN110458181B | 公開(公告)日: | 2021-12-24 |
| 發明(設計)人: | 劉鵬;張國鵬;孟磊;王學奎;魏卉子;景江波;鹿曉龍;葉帥 | 申請(專利權)人: | 中國礦業大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 李悅聲 |
| 地址: | 221116 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 寬度 隨機 森林 句法 依存 模型 訓練 方法 分析 | ||
1.一種基于寬度隨機森林的句法依存模型的句法依存訓練方法,其特征在于:包括特征映射層、增強層和輸出權重層構成的隨機森林模型,特征映射層由n個隨機森林節點組成,每個節點均由一個隨機森林和一個完全隨機森林組成,節點輸出結果為兩個隨機森林輸出結果的平均值,通過設計隨機森林和完全隨機森林組成的神經網絡節點,以自適應調節模型的寬度,增強層由特征映射層的輸出與原始輸入特征向量拼接構成,通過節點的平均準確率得到本地權重,而后按照輸出權重,對特征映射層及增強層所有節點的輸出進行加權求和得到最終輸出;將每個原始輸入數據處理得到輸入特征向量,其中對于具有空間聯系的原始輸入數據使用多粒度掃描進行處理得到輸入特征向量,將各個特征間不存在空間關系的一維輸入數據作為輸入特征向量,將處理得到的一維輸入數據特征向量作為一個樣本生成包含n個節點的特征映射層,求解每個特征映射層節點的本地權重,將本地權重低于一維輸入數據節點重新生成隨機森林,k為類別數量;然后將每個樣本經過特征映射層得到的輸出同原始特征向量合并作為一個樣本生成包含m個節點的增強層,求解每個增強層節點的本地權重,將本地權重低于1/k的節點重新生成隨機森林,通過本地權重求解每個節點的輸出權重;通過增加增強層節點,更新輸出權重;在前向運算訓練過程中引入的淘汰制和輸出權重快速更新方法,使得模型可以快速訓練;
具體步驟為:
首先制作句法依存分析樣本庫,句法依存分析樣本庫由大量自然語句樣本構成,自然語句樣本內的詞或詞組從左側起兩兩之間標注有依存關系,用以解釋句子局部句法依存,局部句法依存包括三種關系:左歸約、右歸約和移進三種關系;
a將句法依存分析樣本庫中的自然語句樣本集作為模型輸入,生成特征矩陣V=[V1,V2,…,VN],其中Vi(i=1,…N)為句法依存分析樣本庫中自然語句中局部上下文特征向量,均為列向量,N為樣本個數;
b將特征矩陣V的每一列Vi(i=1,…N)作為一個樣本生成包含n個節點的特征映射層,求解每個節點的本地權重ωi,i=1,2,…,n,將本地權重低于1/k的節點重新生成隨機森林,直至n個節點的本地權重全部不小于1/k,由于一共存在三種局部句法依存:左歸約、右歸約和移進,屬于三分類,因此k=3,每個樣本經過特征映射層得到F=[F1,F2,…,Fn];
c將特征映射層輸出F=F1,F2,…,Fn與輸入特征向量拼接作為一個組合樣本,訓練隨機森林生成m個節點組成的增強層,然后計算每個增強層節點的本地權重ωi,i=n+1,…,n+m,將本地權重低于1/k的增強節點重新生成隨機森林,直至所有增強節點的本地權重全部不小于1/k;
d根據每個節點的本地權重ω求解輸出權重向量W=[W1,W2,…,Wn+m]T;
e利用步驟b計算的方法在增強層的基礎上增加s個增強層節點,更新全局權重向量W,從而實現動態調整增強層節點數,其中s為預設超參數,通常設為1-10之間;
f對所有樣本都求解最終輸出層的輸入矩陣A,計算每個樣本的分類輸出實際應用的局部句法依存,通過局部句法依存與自然語句樣本中的標注對比得到準確率q,如果q已達標或趨于穩定則完成訓練,否則返回步驟d繼續訓練。
2.根據權利要求1所述基于寬度隨機森林的句法依存模型的句法依存訓練方法,其特征在于:所述三種局部句法依存中右歸約是構建一個依存關系,即目標詞中組合的兩個詞或詞組中位于左邊詞依存于右邊詞,即右邊詞作為支配者,左邊詞作為被支配者,左歸約和右歸約方法相反,右邊詞依存于左邊的詞,即左邊詞作為支配者,右邊詞作為被支配者;移進表示目標詞中的兩個詞之間無法構建出依存關系,繼續下一個目標詞的分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國礦業大學,未經中國礦業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910494216.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于小樣本的分類器訓練方法
- 下一篇:基于相似子圖匹配的在線馬甲檢測方法





