[發(fā)明專利]一種分詞方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201810779117.2 | 申請(qǐng)日: | 2018-07-16 |
| 公開(公告)號(hào): | CN110728141B | 公開(公告)日: | 2023-09-19 |
| 發(fā)明(設(shè)計(jì))人: | 唐海慶;童超;胡小克;梁俊 | 申請(qǐng)(專利權(quán))人: | 中移(蘇州)軟件技術(shù)有限公司;中國移動(dòng)通信集團(tuán)有限公司 |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289 |
| 代理公司: | 北京同達(dá)信恒知識(shí)產(chǎn)權(quán)代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 215163 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分詞 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種分詞方法,其特征在于,應(yīng)用于電子設(shè)備,該方法包括:
將分詞語料輸入到預(yù)先保存的基線分詞模型中,基于所述基線分詞模型,確定所述分詞語料的初步分詞結(jié)果;
將所述初步分詞結(jié)果輸入到預(yù)先訓(xùn)練完成的詞切分模型中,基于所述詞切分模型,輸出所述初步分詞結(jié)果的切分結(jié)果,其中所述切分結(jié)果包括至少兩個(gè)切分單元;
按照預(yù)設(shè)的合并規(guī)則,合并所述至少兩個(gè)切分單元,并確定所述分詞語料的最終分詞結(jié)果;
預(yù)先訓(xùn)練詞切分模型包括:
針對(duì)訓(xùn)練集中的樣本初步分詞結(jié)果,獲取所述樣本初步分詞結(jié)果中被人工標(biāo)記的真實(shí)詞切分結(jié)果,其中所述樣本初步分詞結(jié)果為訓(xùn)練集中的樣本分詞語料輸入到預(yù)先保存的基線分詞模型中,基于所述基線分詞模型確定的;
將所述樣本初步分詞結(jié)果及所述真實(shí)詞切分結(jié)果輸入到詞切分模型中,獲取所述樣本初步分詞結(jié)果的訓(xùn)練切分結(jié)果,對(duì)所述詞切分模型進(jìn)行迭代訓(xùn)練,其中所述訓(xùn)練切分結(jié)果中包括至少兩個(gè)切分單元。
2.如權(quán)利要求1所述的方法,其特征在于,所述詞切分模型包括字節(jié)對(duì)編碼BPE模型。
3.如權(quán)利要求1所述的方法,其特征在于,所述按照預(yù)設(shè)的合并規(guī)則,合并所述至少兩個(gè)切分單元之前,所述方法還包括:
將所述切分結(jié)果輸入到預(yù)先訓(xùn)練完成的標(biāo)注器中,基于所述標(biāo)注器,輸出所述切分結(jié)果的標(biāo)注序列,其中所述標(biāo)注序列中包括所述至少兩個(gè)切分單元中每個(gè)切分單元的詞標(biāo)注;
所述按照預(yù)設(shè)的合并規(guī)則,合并所述至少兩個(gè)切分單元包括:
根據(jù)所述每個(gè)切分單元的詞標(biāo)注及預(yù)設(shè)的合并規(guī)則,合并所述每個(gè)切分單元。
4.如權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述每個(gè)切分單元的詞標(biāo)注及預(yù)設(shè)的合并規(guī)則,合并所述每個(gè)切分單元包括:
順序讀取所述每個(gè)切分單元及所述每個(gè)切分單元的詞標(biāo)注,采用下述方式進(jìn)行合并,直至所述每個(gè)切分單元合并完成:
若存在詞標(biāo)注為詞起始標(biāo)注的第一切分單元,查找與其相鄰的詞標(biāo)注為詞結(jié)束標(biāo)注的第二切分單元,并確定在標(biāo)注序列中位于所述第一切分單元及所述第二切分單元之間的第三切分單元;按照在標(biāo)注序列中的順序,將所述第一切分單元、所述第三切分單元及所述第二切分單元合并為一個(gè)完整的詞;
若存在詞標(biāo)注為完整詞標(biāo)注的第四切分單元,則將所述第四切分單元確定為一個(gè)完整的詞。
5.如權(quán)利要求1所述的方法,其特征在于,所述獲取所述樣本初步分詞結(jié)果的訓(xùn)練切分結(jié)果后,預(yù)先訓(xùn)練標(biāo)注器包括:
在字符級(jí)別上對(duì)齊所述真實(shí)詞切分結(jié)果中的每個(gè)真實(shí)詞切分單元與所述訓(xùn)練切分結(jié)果中的每個(gè)訓(xùn)練切分單元,確定包含相同字符的真實(shí)詞切分單元與訓(xùn)練切分單元的最小切分單元集合;
根據(jù)所述最小切分單元集合,為所述每個(gè)訓(xùn)練切分單元進(jìn)行詞標(biāo)注,其中所述詞標(biāo)注包括詞起始標(biāo)注、詞中間標(biāo)注、詞結(jié)束標(biāo)注、完整詞標(biāo)注;
將所述每個(gè)訓(xùn)練切分單元及所述每個(gè)訓(xùn)練切分單元的詞標(biāo)注輸入到標(biāo)注器中,獲取訓(xùn)練切分單元與詞標(biāo)注的至少一組映射關(guān)系;
根據(jù)所述至少一組映射關(guān)系,確定訓(xùn)練完成的標(biāo)注器。
6.如權(quán)利要求5所述的方法,其特征在于,所述標(biāo)注器基于深度神經(jīng)網(wǎng)絡(luò)DNN訓(xùn)練完成。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中移(蘇州)軟件技術(shù)有限公司;中國移動(dòng)通信集團(tuán)有限公司,未經(jīng)中移(蘇州)軟件技術(shù)有限公司;中國移動(dòng)通信集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810779117.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





