[發明專利]一種基于深度學習的中文自然語言處理方法在審
| 申請號: | 201810387340.2 | 申請日: | 2018-04-26 |
| 公開(公告)號: | CN110427484A | 公開(公告)日: | 2019-11-08 |
| 發明(設計)人: | 姜龍 | 申請(專利權)人: | 上海意仕騰教育科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/08;G06F17/27 |
| 代理公司: | 上海宏京知識產權代理事務所(普通合伙) 31297 | 代理人: | 鄧文武 |
| 地址: | 200000 上海市楊浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文自然語言處理 模型訓練模塊 調配 算法模塊 訓練數據 人機交互界面 深度分類模塊 神經網絡模型 模型數據庫 智能化機器 定制模型 機器學習 解碼算法 配置參數 數據切片 數據清洗 通用數學 原始文本 學習 服務器 預測 中文 協調 | ||
本發明涉及一種基于深度學習的中文自然語言處理方法,服務器包括模型調配模塊、數據切片模塊、數據清洗模塊、模型訓練模塊、模型數據庫,模型調配模塊包括人機交互界面、操作調配模塊,模型訓練模塊包括通用數學算法模塊、解碼算法模塊、混合協調算法模塊、深度分類模塊,包括配置參數、輸入訓練數據、訓練數據、生成定制模型、預測原始文本等過程。本發明采用機器學習訓練生成的中文深度神經網絡模型完成中文自然語言處理任務,具有智能化機器學習的特點。
技術領域
本發明涉及一種中文自然語言處理方法,特別涉及一種基于深度學習的NLP分詞的中文自然語言處理方法,屬于中文自然語言處理領域。
背景技術
機器學習是指計算機模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。機器學習是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域,它主要使用歸納、綜合而不是演繹。機器學習廣泛應用在數據挖掘、自然語言處理、生物特征識別、搜索引擎、醫學診斷等領域,具體到自然語言處理領域,就是要實現基于深度學習的自然語言處理過程,利用學習訓練生成的神經網絡模型完成數據的處理并輸出分析結果。
發明內容
本發明基于深度學習的中文自然語言處理方法公開了新的方案,采用機器學習訓練生成的中文深度神經網絡模型完成中文自然語言處理任務,解決了現有同類方案無智能化深度學習系統的問題。
本發明基于深度學習的中文自然語言處理方法,中文自然語言處理方法通過服務器實現,服務器包括模型調配模塊、數據切片模塊、數據清洗模塊、模型訓練模塊、模型數據庫,模型調配模塊包括人機交互界面、操作調配模塊,模型訓練模塊包括通用數學算法模塊、解碼算法模塊、混合協調算法模塊、深度分類模塊,包括過程:用戶通過人機交互界面調用操作調配模塊配置模型的參數、訓練數據集,服務器根據用戶配置的模型參數、訓練數據集調用數據切片模塊、數據清洗模塊、模型訓練模塊處理、訓練數據生成定制模型存入模型數據庫,數據切片模塊將數據切分成不同的維度,數據清洗模塊篩選出有效數據,模型訓練模塊將數據調入深度學習網絡來調配設定的算法進行計算訓練,混合協調算法模塊調用、協調通用數學算法模塊、解碼算法模塊、深度分類模塊對數據進行計算訓練生成定制模型,服務器讀取定制模型對原始文本數據進行預測后輸出文本序列標記結果。
進一步,本方案的方法的模型訓練的過程包括無監督預訓練、有監督調優訓練,無監督預訓練、有監督調優訓練采用反向傳播算法,反向傳播算法包括過程:對于每個訓練樣例,計算在當前模型參數取值以及訓練樣例上的損失函數對于模型參數的偏導數,并根據該偏導數對模型參數向梯度下降方向進行迭代,通過誤差在神經網絡中逐層反向傳播的方式計算梯度。
進一步,本方案的方法的混合協調算法模塊采用多任務并行處理的方式完成模型訓練過程,多任務并行訓練過程共享各任務的共同特征來提高訓練效果。
本發明基于深度學習的中文自然語言處理方法采用機器學習訓練生成的中文深度神經網絡模型完成中文自然語言處理任務,具有智能化機器學習的特點。
附圖說明
圖1是本發明基于深度學習的中文自然語言處理方法的模塊原理圖。
圖2是基于深度學習的中文自然語言處理方法的流程簡圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海意仕騰教育科技有限公司,未經上海意仕騰教育科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810387340.2/2.html,轉載請聲明來源鉆瓜專利網。





