[發明專利]一種基于深度學習的中文分詞方法和裝置在審
| 申請號: | 201910322127.8 | 申請日: | 2019-04-22 |
| 公開(公告)號: | CN110222329A | 公開(公告)日: | 2019-09-10 |
| 發明(設計)人: | 陳閩川;馬駿;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 北京匯思誠業知識產權代理有限公司 11444 | 代理人: | 馮曉平 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 序列數據 條件隨機場模型 卷積神經網絡 時序 中文分詞 方法和裝置 數據集合 數據轉換 語料 人工智能技術 分詞結果 訓練語料 子序列 預設 分組 學習 | ||
本發明實施例提供了一種基于深度學習的中文分詞方法和裝置。本發明涉及人工智能技術領域,該方法包括:將訓練語料數據轉換為字符級的數據;將字符級的數據轉換為序列數據;根據預設符號將序列數據進行切分,得到多個子序列數據,根據子序列數據的長度將多個子序列數據進行分組,得到K個數據集合;根據K個數據集合,得到K個訓練后的時序卷積神經網絡?條件隨機場模型;將目標語料數據經過處理后的數據輸入K個訓練后的時序卷積神經網絡?條件隨機場模型中的至少一個訓練后的時序卷積神經網絡?條件隨機場模型,得到目標語料數據的分詞結果。因此,本發明實施例提供的技術方案能夠解決現有技術中中文分詞精確度低的問題。
【技術領域】
本發明涉及人工智能技術領域,尤其涉及一種基于深度學習的中文分詞方法和裝置。
【背景技術】
目前深度學習中文分詞算法主要基于以長短時記憶(LSTM)為代表的循環神經網絡模型及其衍生模型,但是LSTM模型在序列數據問題中的處理能力隨著序列長度的增加而下降,存在中文分詞精確度低的問題。
【發明內容】
有鑒于此,本發明實施例提供了一種基于深度學習的中文分詞方法和裝置,用以解決現有技術中中文分詞精確度低的問題。
一方面,本發明實施例提供了一種基于深度學習的中文分詞方法,所述方法包括:將訓練語料數據轉換為字符級的數據;將所述字符級的數據轉換為序列數據;根據預設符號將所述序列數據進行切分,得到多個子序列數據,根據子序列數據的長度將所述多個子序列數據進行分組,得到K個數據集合,所述K個數據集合中的每個數據集合包含的子序列數據的長度相等,K為大于1的自然數;從第i個數據集合中抽取多個子序列數據并將抽取的所述多個子序列數據輸入第i個時序卷積神經網絡-條件隨機場模型中,訓練所述第i個時序卷積神經網絡-條件隨機場模型,得到訓練后的第i個時序卷積神經網絡-條件隨機場模型,i依次取1至K之間的自然數,一共得到K個訓練后的時序卷積神經網絡-條件隨機場模型;將目標語料數據轉換為字符級的數據,得到第一數據,將所述第一數據轉換為序列數據,得到第二數據,將所述第二數據輸入所述K個訓練后的時序卷積神經網絡-條件隨機場模型中的至少一個訓練后的時序卷積神經網絡-條件隨機場模型,得到所述目標語料數據的分詞結果。
進一步地,所述將所述字符級的數據轉換為序列數據,包括:通過預設編碼方式將所述字符級的數據轉換為所述序列數據,所述預設編碼方式為以下任意一種:獨熱編碼或者詞轉向量編碼。
進一步地,所述將抽取的所述多個子序列數據輸入第i個時序卷積神經網絡-條件隨機場模型中,訓練所述第i個時序卷積神經網絡-條件隨機場模型,得到訓練后的第i個時序卷積神經網絡-條件隨機場模型,包括:S1,將抽取的所述多個子序列數據輸入第i個時序卷積神經網絡進行前向傳播,得到第一輸出數據,所述第i個時序卷積神經網絡是所述第i個時序卷積神經網絡-條件隨機場模型中的時序卷積神經網絡;S2,根據所述第一輸出數據與輸入的所述多個子序列數據計算損失函數的值;S3,如果所述損失函數的值大于預設值,則將所述多個子序列數據輸入所述第i個時序卷積神經網絡進行反向傳播,并對所述第i個時序卷積神經網絡的網絡參數進行優化;S4,循環步驟S1至S3,直至所述損失函數的值小于或等于所述預設值;S5,如果所述損失函數的值小于或等于所述預設值,確定訓練完成,得到訓練后的第i個時序卷積神經網絡;S6,將所述訓練后的第i個時序卷積神經網絡輸出的數據輸入第i個條件隨機場,并對所述第i個條件隨機場進行訓練,得到所述訓練后的第i個時序卷積神經網絡-條件隨機場模型,所述第i個條件隨機場是所述第i個時序卷積神經網絡-條件隨機場模型中的條件隨機場。
進一步地,所述對所述第i個條件隨機場進行訓練,包括:根據所述訓練后的第i個時序卷積神經網絡輸出的數據計算所述第i個條件隨機場的輸出數據的條件概率;使用最大似然估計方法訓練得到所述第i個條件隨機場的輸出數據的條件概率的最大值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910322127.8/2.html,轉載請聲明來源鉆瓜專利網。





