[發(fā)明專利]文本分詞模型的訓(xùn)練方法、分詞處理方法及裝置、介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202010214706.3 | 申請(qǐng)日: | 2020-03-24 |
| 公開(公告)號(hào): | CN111428496B | 公開(公告)日: | 2023-08-15 |
| 發(fā)明(設(shè)計(jì))人: | 姜佳良;李響;孫于惠;李京蔚 | 申請(qǐng)(專利權(quán))人: | 北京小米松果電子有限公司 |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06F18/213;G06N3/045;G06N3/044;G06N3/08 |
| 代理公司: | 北京名華博信知識(shí)產(chǎn)權(quán)代理有限公司 11453 | 代理人: | 白瑩 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 分詞 模型 訓(xùn)練 方法 處理 裝置 介質(zhì) | ||
1.一種文本分詞模型的訓(xùn)練方法,其特征在于,所述文本分詞模型包括特征提取器、分詞分類器、聲調(diào)分類器,所述訓(xùn)練方法包括:
獲取訓(xùn)練文本,所述訓(xùn)練文本中的每個(gè)字標(biāo)注有第一分詞標(biāo)簽以及第一聲調(diào)標(biāo)簽;
將所述訓(xùn)練文本輸入所述特征提取器,提取所述訓(xùn)練文本的特征信息;
將所述訓(xùn)練文本的特征信息分別輸入所述分詞分類器和所述聲調(diào)分類器;
根據(jù)所述分詞分類器的輸出結(jié)果確定分詞輸出誤差信息,根據(jù)所述聲調(diào)分類器的輸出結(jié)果確定聲調(diào)輸出誤差信息;
根據(jù)所述分詞輸出誤差信息和聲調(diào)輸出誤差信息,調(diào)整所述文本分詞模型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述分詞分類器的輸出結(jié)果確定分詞輸出誤差信息,包括:
所述分詞分類器輸出所述訓(xùn)練文本中每個(gè)字的第二分詞標(biāo)簽,將所述訓(xùn)練文本中每個(gè)字的第二分詞標(biāo)簽分別與所述字的第一分詞標(biāo)簽進(jìn)行對(duì)比,確定所述分詞輸出誤差信息。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述聲調(diào)分類器的輸出結(jié)果確定聲調(diào)輸出誤差信息,包括:
所述聲調(diào)分類器輸出所述訓(xùn)練文本中每個(gè)字的第二聲調(diào)標(biāo)簽,將所述訓(xùn)練文本中每個(gè)字的第二聲調(diào)標(biāo)簽分別與所述字的第一聲調(diào)標(biāo)簽進(jìn)行對(duì)比,確定所述聲調(diào)輸出誤差信息。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述分詞輸出誤差信息和聲調(diào)輸出誤差信息,調(diào)整所述文本分詞模型,包括:
根據(jù)所述分詞輸出誤差信息和聲調(diào)輸出誤差信息,分別調(diào)整所述分詞分類器和所述聲調(diào)分類器。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法,還包括:
分別調(diào)整所述分詞分類器和所述聲調(diào)分類器后,將所述訓(xùn)練文本的特征信息分別輸入調(diào)整后的分詞分類器以及聲調(diào)分類器;
根據(jù)調(diào)整后的分詞分類器以及聲調(diào)分類器的輸出結(jié)果,再次確定分詞輸出誤差信息和聲調(diào)輸出誤差信息;
根據(jù)再次確定的分詞輸出誤差信息和聲調(diào)輸出誤差信息,調(diào)整所述特征提取器。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)再次確定的分詞輸出誤差信息和聲調(diào)輸出誤差信息,調(diào)整所述特征提取器,包括:
根據(jù)再次確定的分詞輸出誤差信息和聲調(diào)輸出誤差信息,按照預(yù)設(shè)方式生成用于調(diào)整所述特征提取器的合成誤差信息;
根據(jù)所述合成誤差信息,調(diào)整所述特征提取器;
其中,所述預(yù)設(shè)方式包括如下任一種:
計(jì)算所述分詞輸出誤差信息和聲調(diào)輸出誤差信息的簡(jiǎn)單平均值,將所述簡(jiǎn)單平均值確定為所述合成誤差信息;
根據(jù)所述分詞輸出誤差信息對(duì)應(yīng)的權(quán)重信息,和所述聲調(diào)輸出誤差信息對(duì)應(yīng)的權(quán)重信息,計(jì)算所述分詞輸出誤差信息和所述聲調(diào)輸出誤差信息的加權(quán)平均值,將所述權(quán)重平均值確定為所述合成誤差信息,其中,所述分詞輸出誤差信息對(duì)應(yīng)的權(quán)重信息表征,分詞特征在特征提取器的特征提取能力中的比重,所述聲調(diào)輸出誤差信息對(duì)應(yīng)的權(quán)重信息表征,聲調(diào)特征對(duì)特征提取器的特征提取能力中的比重。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述聲調(diào)標(biāo)簽包括一聲、二聲、三聲、四聲和輕聲。
8.一種文本分詞模型實(shí)現(xiàn)分詞處理的方法,其特征在于,所述文本分詞模型包括特征提取器和分詞分類器,其中,所述特征提取器和分詞分類器,是通過如權(quán)利要求1至7任一項(xiàng)所述的文本分詞模型的訓(xùn)練方法得到的,所述分詞處理的方法包括:
將待處理的文本輸入所述特征提取器中,提取所述文本的特征信息;
將所述文本的特征信息輸入所述分詞分類器中,得到所述文本中每個(gè)字的分詞處理結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京小米松果電子有限公司,未經(jīng)北京小米松果電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010214706.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





