[發明專利]一種基于寬度隨機森林的句法依存模型、訓練方法和分析方法有效
| 申請號: | 201910494216.0 | 申請日: | 2019-06-06 |
| 公開(公告)號: | CN110458181B | 公開(公告)日: | 2021-12-24 |
| 發明(設計)人: | 劉鵬;張國鵬;孟磊;王學奎;魏卉子;景江波;鹿曉龍;葉帥 | 申請(專利權)人: | 中國礦業大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 李悅聲 |
| 地址: | 221116 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 寬度 隨機 森林 句法 依存 模型 訓練 方法 分析 | ||
本發明公開了一種基于寬度隨機森林的句法依存模型、訓練方法和分析方法,適用于句法依存分析使用。將隨機森林集成模型用于基于轉移的句法依存分析中,進行局部依存構建預測,主要包括模型設計和模型訓練兩部分,模型設計部分主要包括特征映射層和增強層的設計、輸出權重的設計兩部分,通過設計隨機森林和完全隨機森林組成的神經網絡節點,以自適應調節模型的寬度,通過節點的平均準確率得到本地權重計算輸出權重,最后求解最終輸出向量。其自動化程度高,通過訓練自適應決定模型大小,理論分析容易、可解釋性以及并行化能力強。
技術領域
本發明涉及一種句法依存模型、訓練方法和分析方法,尤其適用于句法依存分析領域使用的一種基于寬度隨機森林的句法依存模型、訓練方法和分析方法。
背景技術
機器學習是當下最熱門的研究領域之一,近年來,隨著數據量的不斷增長,機器學習的效率和準確率問題備受關注。集成學習一直被視為提升模型的準確率的有效方法,該方法在監督學習以及無監督學習下都得到廣泛應用。
近期周志華(Zhi-Hua Zhou)等人提出一種基于隨機森林之上的集成學習方法——深度森林(gcForest)。深度森林是一種卷積神經網絡之外的深度模型,相對深度卷積神經網絡在同樣具備表示學習能力的同時具備以下優點:模型超參數少,訓練簡單;模型計算量小,可基于PC進行模型訓練;模型可擴展,相對卷積神經網絡更加易于并行化。深度森林(gcForest) 提出了全新的集成學習思路,在準確率方面取得不錯的效果。但深度森林在多層級聯結構下,深度森林的并行化會受到很大限制;另外深度森林在輸出層通過求解每個輸出向量的平均值得到最終輸出向量,缺乏一定合理性。
句法依存分析對語義理解以及表達有著重要的意義,被視為自然語言處理(Natural Language Processing,NLP)的核心技術之一,同時由于句法的隱晦性、表達的不確定性等因素,句法依存分析又屬于自然語言處理中最復雜的技術之一。
目前主流句法依存分析方法主要有兩類,基于統計數學的概率式方法及基于深度學習的數據驅動式方法。在基于統計數學的方法中,目前公知技術認為上文同下文語義是無關的,提出基于詞典的句法依存分析方法(Probabilistic Context-Free GrammarsLexicalized, PCFGs),合作和將概率分布作為先決條件,提出一種基于概率生成的句法依存分析方法,之后提出的最大熵模型、基于模板提取特征的句法依存分析、基于條件隨機場(Conditional Random Field,CRF)的依存分析模型、基于全局線性模型的依存分析方法等均屬于基于統計數學的句法依存分析。
基于深度學習的句法依存分析利用了深度網絡強大的特征提取能力,再基于所提取的特征進行局部依存構建方法預測,相比早期的概率式方法,這種數據驅動式方法在大幅節省人工成本的同時,算法效果也取得了顯著提升。Danqi Chen等人最早將深度學習成功應用于基于轉移的句法依存分析,他們將上下文語境的詞向量、詞性標注等信息做為輸入,利用多層感知器預測局部依存構建。基于Stack-LSTM的轉移句法依存分析方法開始,逐步出現眾多基于深度學習的句法依存分析工作,通過對輸入句子進行編碼并提取復雜的特征,再通過對特征提取的改進以提升句法依存分析的準確率。相似的利用LSTM作為特征提取器的工作如基于層次型LSTM的句法依存分析,適用于句法依存分析的注意力機制。相比于上述基于深度學習設計復雜的特征提取器而言,基于編碼器-解碼器的模型結構更加簡潔和通用,在不需要專門設計特征提取結構的情況下能夠很好的應用于各種句法依存分析任務。在上述基于深度學習的句法依存分析方法中,Stack-LSTM及SQ-decoder效果比較出色的具有代表性的兩個。但是,這些方法多是通過增加深度模型的復雜度以提升特征表達能力,從而提升句法依存分析的效果。然而,隨著深度模型復雜度的不斷增加,帶來了一些不可避免的負效果,典型問題包括模型訓練效率不斷降低以及可解釋性不斷變弱等。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國礦業大學,未經中國礦業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910494216.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于小樣本的分類器訓練方法
- 下一篇:基于相似子圖匹配的在線馬甲檢測方法





