[發(fā)明專利]分詞方法、裝置、電子設(shè)備及可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202210401923.2 | 申請日: | 2022-04-18 |
| 公開(公告)號: | CN114692630A | 公開(公告)日: | 2022-07-01 |
| 發(fā)明(設(shè)計)人: | 王哲 | 申請(專利權(quán))人: | 上海喜馬拉雅科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 杜楊 |
| 地址: | 201100 上海市*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分詞 方法 裝置 電子設(shè)備 可讀 存儲 介質(zhì) | ||
1.一種分詞方法,其特征在于,所述方法包括:
從待分詞文本中,獲得所述待分詞文本中每個字符對應(yīng)的候選分詞集,其中,任意一個字符對應(yīng)的所述候選分詞集中包括以所述字符為起始字符的候選分詞,在所述候選分詞中包括多個字符時,所述多個字符為所述待分詞文本中的連續(xù)字符;
根據(jù)每個字符對應(yīng)的候選分詞集,通過動態(tài)規(guī)劃方式,以候選分詞結(jié)果中包括的各候選分詞的字符串長度乘積最大為目標(biāo),按照從后往前的順序?qū)λ龃衷~文本中的各字符進行遍歷,獲得所述候選分詞結(jié)果,其中,任意一個所述候選分詞結(jié)果中的所述候選分詞總和構(gòu)成所述待分詞文本;
根據(jù)獲得的所述候選分詞結(jié)果,確定目標(biāo)分詞結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)每個字符對應(yīng)的候選分詞集,通過動態(tài)規(guī)劃方式,以候選分詞結(jié)果中包括的各候選分詞的字符串長度乘積最大為目標(biāo),按照從后往前的順序?qū)λ龃衷~文本中的各字符進行遍歷,獲得候選分詞結(jié)果,包括:
對遍歷到的當(dāng)前字符對應(yīng)的所述候選分詞集中的候選分詞進行遍歷,根據(jù)遍歷到的所述當(dāng)前字符對應(yīng)的當(dāng)前候選分詞的字符串長度、以及目標(biāo)位置對應(yīng)的最優(yōu)局部分詞結(jié)果及最大局部乘積,獲得該當(dāng)前候選分詞對應(yīng)的當(dāng)前候選局部分詞結(jié)果及當(dāng)前候選局部乘積,其中,所述目標(biāo)位置為所述當(dāng)前候選分詞的最后一個字符在所述待分詞文本中的位置之后的第一個位置,所述目標(biāo)位置對應(yīng)的最大局部乘積為該最大局部乘積所對應(yīng)的最優(yōu)局部分詞結(jié)果中所包括的候選分詞的字符串長度的乘積;
將最大的當(dāng)前候選局部乘積作為所述當(dāng)前字符所在位置對應(yīng)的當(dāng)前最大局部乘積,并將所述當(dāng)前最大局部乘積所對應(yīng)的當(dāng)前候選局部分詞結(jié)果作為所述當(dāng)前字符所在位置對應(yīng)的當(dāng)前最優(yōu)局部詞結(jié)果,其中,所述待分詞文本中第一個字符所在位置對應(yīng)的最優(yōu)局部分詞結(jié)果為所述候選分詞結(jié)果。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,在所述候選分詞結(jié)果為多個的情況下,所述根據(jù)獲得的所述候選分詞結(jié)果,確定目標(biāo)分詞結(jié)果,包括:
獲得各所述候選分詞結(jié)果的分詞顆粒度,其中,所述分詞顆粒度用于表示分詞拆分的顆粒度粗細;
選擇最小分詞顆粒度對應(yīng)的所述候選分詞結(jié)果,作為所述目標(biāo)分詞結(jié)果。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述分詞顆粒度根據(jù)所述候選分詞結(jié)果包括的候選分詞數(shù)量確定,所述分詞顆粒度與所述候選分詞結(jié)果包括的候選分詞數(shù)量反相關(guān)。
5.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,在所述候選分詞結(jié)果為多個的情況下,所述根據(jù)獲得的所述候選分詞結(jié)果,確定目標(biāo)分詞結(jié)果,包括:
根據(jù)預(yù)設(shè)詞庫中包括的預(yù)設(shè)分詞及詞頻,獲得各所述候選分詞結(jié)果中所包括的分詞的詞頻之和作為各所述候選分詞結(jié)果對應(yīng)的詞頻總數(shù);
選出最大詞頻總數(shù)對應(yīng)的所述候選分詞結(jié)果,作為所述目標(biāo)分詞結(jié)果。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述預(yù)設(shè)詞庫通過以下方式獲得:
從預(yù)設(shè)數(shù)據(jù)源中獲得多個所述預(yù)設(shè)分詞;
統(tǒng)計各所述預(yù)設(shè)分詞在所述預(yù)設(shè)數(shù)據(jù)源中的出現(xiàn)次數(shù),并將各所述預(yù)設(shè)分詞對應(yīng)的出現(xiàn)次數(shù)作為該預(yù)設(shè)分詞的詞頻。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,預(yù)設(shè)詞庫中包括多個預(yù)設(shè)分詞,所述從待分詞文本中,獲得所述待分詞文本中每個字符對應(yīng)的候選分詞集,包括:
根據(jù)所述預(yù)設(shè)詞庫,針對所述待分詞文本中的各字符,從所述待分詞文本中找出至少一個以該字符為起始字符且與一個所述預(yù)設(shè)分詞相同的字符串,作為該字符對應(yīng)的所述候選分詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海喜馬拉雅科技有限公司,未經(jīng)上海喜馬拉雅科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210401923.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





