[發明專利]一種基于深度學習的中文分詞方法和裝置在審
| 申請號: | 201910322127.8 | 申請日: | 2019-04-22 |
| 公開(公告)號: | CN110222329A | 公開(公告)日: | 2019-09-10 |
| 發明(設計)人: | 陳閩川;馬駿;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 北京匯思誠業知識產權代理有限公司 11444 | 代理人: | 馮曉平 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 序列數據 條件隨機場模型 卷積神經網絡 時序 中文分詞 方法和裝置 數據集合 數據轉換 語料 人工智能技術 分詞結果 訓練語料 子序列 預設 分組 學習 | ||
1.一種基于深度學習的中文分詞方法,其特征在于,所述方法包括:
將訓練語料數據轉換為字符級的數據;
將所述字符級的數據轉換為序列數據;
根據預設符號將所述序列數據進行切分,得到多個子序列數據,根據子序列數據的長度將所述多個子序列數據進行分組,得到K個數據集合,所述K個數據集合中的每個數據集合包含的子序列數據的長度相等,K為大于1的自然數;
從第i個數據集合中抽取多個子序列數據并將抽取的所述多個子序列數據輸入第i個時序卷積神經網絡-條件隨機場模型中,訓練所述第i個時序卷積神經網絡-條件隨機場模型,得到訓練后的第i個時序卷積神經網絡-條件隨機場模型,i依次取1至K之間的自然數,一共得到K個訓練后的時序卷積神經網絡-條件隨機場模型;
將目標語料數據轉換為字符級的數據,得到第一數據,將所述第一數據轉換為序列數據,得到第二數據,將所述第二數據輸入所述K個訓練后的時序卷積神經網絡-條件隨機場模型中的至少一個訓練后的時序卷積神經網絡-條件隨機場模型,得到所述目標語料數據的分詞結果。
2.根據權利要求1所述的方法,其特征在于,所述將所述字符級的數據轉換為序列數據,包括:
通過預設編碼方式將所述字符級的數據轉換為所述序列數據,所述預設編碼方式為以下任意一種:獨熱編碼或者詞轉向量編碼。
3.根據權利要求1所述的方法,其特征在于,所述將抽取的所述多個子序列數據輸入第i個時序卷積神經網絡-條件隨機場模型中,訓練所述第i個時序卷積神經網絡-條件隨機場模型,得到訓練后的第i個時序卷積神經網絡-條件隨機場模型,包括:
S1,將抽取的所述多個子序列數據輸入第i個時序卷積神經網絡進行前向傳播,得到第一輸出數據,所述第i個時序卷積神經網絡是所述第i個時序卷積神經網絡-條件隨機場模型中的時序卷積神經網絡;
S2,根據所述第一輸出數據與輸入的所述多個子序列數據計算損失函數的值;
S3,如果所述損失函數的值大于預設值,則將所述多個子序列數據輸入所述第i個時序卷積神經網絡進行反向傳播,并對所述第i個時序卷積神經網絡的網絡參數進行優化;
S4,循環步驟S1至S3,直至所述損失函數的值小于或等于所述預設值;
S5,如果所述損失函數的值小于或等于所述預設值,確定訓練完成,得到訓練后的第i個時序卷積神經網絡;
S6,將所述訓練后的第i個時序卷積神經網絡輸出的數據輸入第i個條件隨機場,并對所述第i個條件隨機場進行訓練,得到所述訓練后的第i個時序卷積神經網絡-條件隨機場模型,所述第i個條件隨機場是所述第i個時序卷積神經網絡-條件隨機場模型中的條件隨機場。
4.根據權利要求3所述的方法,其特征在于,所述對所述第i個條件隨機場進行訓練,包括:
根據所述訓練后的第i個時序卷積神經網絡輸出的數據計算所述第i個條件隨機場的輸出數據的條件概率;
使用最大似然估計方法訓練得到所述第i個條件隨機場的輸出數據的條件概率的最大值。
5.根據權利要求1至4任一項所述的方法,其特征在于,所述將所述第二數據輸入所述K個訓練后的時序卷積神經網絡-條件隨機場模型中的至少一個訓練后的時序卷積神經網絡-條件隨機場模型,得到所述目標語料數據的分詞結果,包括:
根據預設符號將所述第二數據進行切分,得到多個序列數據;
根據序列數據的長度將所述多個序列數據進行分組,得到L個數據集合,所述L個數據集合中每個數據集合包含的所有序列數據的長度相等,L為自然數,1≤L≤K;
根據訓練過程中使用的子序列數據的長度從所述K個訓練后的時序卷積神經網絡-條件隨機場模型中篩選出L個訓練后的時序卷積神經網絡-條件隨機場模型,得到第L1個至第LL個訓練后的時序卷積神經網絡-條件隨機場模型,將第j個數據集合包含的所有序列數據輸入第Lj個訓練后的時序卷積神經網絡-條件隨機場模型中,得到多個分詞結果,其中,所述第Lj個訓練后的時序卷積神經網絡-條件隨機場模型訓練過程中使用的子序列數據的長度與所述第j個數據集合包含的序列數據的長度相等,j依次取1至L之間的自然數,Lj為1至K之間的自然數;
將所述多個分詞結果進行拼接,得到所述目標語料數據的分詞結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910322127.8/1.html,轉載請聲明來源鉆瓜專利網。





