[發明專利]藏文分詞信息處理方法、系統、存儲介質、終端及應用在審
| 申請號: | 202110380044.1 | 申請日: | 2021-04-09 |
| 公開(公告)號: | CN113051913A | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 劉清民;程國艮 | 申請(專利權)人: | 中譯語通科技股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/284;G06F40/242;G06N3/04;G06N3/08 |
| 代理公司: | 北京萬貝專利代理事務所(特殊普通合伙) 11520 | 代理人: | 馬紅 |
| 地址: | 100131 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 藏文 分詞 信息處理 方法 系統 存儲 介質 終端 應用 | ||
1.一種藏文分詞信息處理方法,其特征在于,所述藏文分詞信息處理方法通過word2vec,學習到藏文字詞的表示方法通過已有的分詞語料,以及學習到的詞向量,利用卷積神經網絡和條件隨機場,學習到藏文在某處分詞的可能性,在可能性較大的地方對藏文進行分詞。
2.如權利要求1所述的藏文分詞信息處理方法,其特征在于,所述藏文分詞信息處理方法通過學習藏文詞向量word2vec,利用卷積神經網絡CNN模型和條件隨機場CRF預測單詞的邊界。
3.如權利要求2所述的藏文分詞信息處理方法,其特征在于,所述藏文分詞信息處理方法將句子中的字符序列與手動標記的單詞邊界的序列進行匹配來迭代地訓練網絡,獲得權重,也就是最后的參數。
4.如權利要求1所述的藏文分詞信息處理方法,其特征在于,所述藏文分詞信息處理方法具體包括:
第一步,對已經標記好的分詞語料進行預處理,通過word2vec學習到藏文的詞向量,也就是深度學習中每個詞的表示,以及所有分好詞的字典,專門加了一個未登錄詞占位;
第二步,搭建CNN模型,利用CRF計算損失loss;
第三步,利用標記好的藏文以及訓練好的詞向量通過搭建好的模型進行訓練;
第四步,當訓練在開發集達到一定的準確率后停止訓練,從而得到分詞規則。
5.如權利要求4所述的藏文分詞信息處理方法,其特征在于,所述搭建好的模型的結構由卷積神經網絡加條件隨機場組成。
6.一種計算機設備,其特征在于,所述計算機設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述計算機程序被所述處理器執行時,使得所述處理器執行如下步驟:通過詞向量、卷積神經網絡以及條件隨機場對分詞語料進行學習,生成藏文單詞分界規則,最終實現對藏文的分詞。
7.一種計算機可讀存儲介質,存儲有計算機程序,所述計算機程序被處理器執行時,使得所述處理器執行如下步驟:通過詞向量、卷積神經網絡以及條件隨機場對分詞語料進行學習,生成藏文單詞分界規則,最終實現對藏文的分詞。
8.一種信息數據處理終端,其特征在于,所述信息數據處理終端用于實現權利要求1~5任意一項所述的藏文分詞信息處理方法。
9.一種實施權利要求1~5任意一項所述藏文分詞信息處理方法的藏文分詞信息處理系統,其特征在于,所述藏文分詞信息處理系統包括:
詞向量預處理模塊,用于將已經分好詞的藏文通過藏文詞向量訓練學習到藏文的詞向量,保存詞向量和字典;
模型結構搭建模塊,用于搭建模型結構,模型結構由卷積神經網絡加條件隨機場組成;
詞向量訓練模塊,用于通過標記好的藏文以及訓練好的詞向量訓練模型;
詞向量訓練停止判斷模塊,用于等開發集達到一定的準確率后停止訓練。
10.一種計算機信息處理終端,其特征在于,所述計算機信息處理終端用于實現權利要求1~5任意一項所述的藏文分詞信息處理方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技股份有限公司,未經中譯語通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110380044.1/1.html,轉載請聲明來源鉆瓜專利網。





