[發明專利]分詞方法、裝置、電子設備及可讀存儲介質在審
| 申請號: | 202210401923.2 | 申請日: | 2022-04-18 |
| 公開(公告)號: | CN114692630A | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 王哲 | 申請(專利權)人: | 上海喜馬拉雅科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 杜楊 |
| 地址: | 201100 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分詞 方法 裝置 電子設備 可讀 存儲 介質 | ||
本申請提供了一種分詞方法、裝置、電子設備及可讀存儲介質,涉及計算機技術領域。該方法包括:從待分詞文本中,獲得待分詞文本中每個字符對應的候選分詞集,任意一個字符對應的候選分詞集中包括以該字符為起始字符的候選分詞,在候選分詞中包括多個字符時,該多個字符為待分詞文本中的連續字符;根據每個字符對應的候選分詞集,通過動態規劃方式,以候選分詞結果中包括的各候選分詞的字符串長度乘積最大為目標,按照從后往前的順序對待分詞文本中的各字符進行遍歷,獲得候選分詞結果,進而確定目標分詞結果,任意一個候選分詞結果中的候選分詞總和構成待分詞文本。如此,無需使用訓練集訓練分詞模型,同時可保證分詞結果的準確性。
技術領域
本申請涉及計算機技術領域,具體而言,涉及一種分詞方法、裝置、電子設備及可讀存儲介質。
背景技術
分詞在信息檢索、文本挖掘等方向非常重要,目前常用的分詞方法有基于模型的分詞。基于模型分詞具有擬合性好的優點,但它用于訓練集未囊括的上下文場景時,往往不可靠,且語料標注要求高。
發明內容
本申請實施例提供了一種分詞方法、裝置、電子設備及可讀存儲介質,其能夠無需使用訓練集訓練分詞模型,同時保證分詞結果的準確性,具有效果好、成本低等特點。
本申請的實施例可以這樣實現:
第一方面,本申請實施例提供一種分詞方法,所述方法包括:
從待分詞文本中,獲得所述待分詞文本中每個字符對應的候選分詞集,其中,任意一個字符對應的所述候選分詞集中包括以所述字符為起始字符的候選分詞,在所述候選分詞中包括多個字符時,所述多個字符為所述待分詞文本中的連續字符;
根據每個字符對應的候選分詞集,通過動態規劃方式,以候選分詞結果中包括的各候選分詞的字符串長度乘積最大為目標,按照從后往前的順序對所述待分詞文本中的各字符進行遍歷,獲得所述候選分詞結果,其中,任意一個所述候選分詞結果中的所述候選分詞總和構成所述待分詞文本;
根據獲得的所述候選分詞結果,確定目標分詞結果。
第二方面,本申請實施例提供一種分詞裝置,所述裝置包括:
分詞集獲得模塊,用于從待分詞文本中,獲得所述待分詞文本中每個字符對應的候選分詞集,其中,任意一個字符對應的所述候選分詞集中包括以所述字符為起始字符的候選分詞,在所述候選分詞中包括多個字符時,所述多個字符為所述待分詞文本中的連續字符;
處理模塊,用于根據每個字符對應的候選分詞集,通過動態規劃方式,以候選分詞結果中包括的各候選分詞的字符串長度乘積最大為目標,按照從后往前的順序對所述待分詞文本中的各字符進行遍歷,獲得所述候選分詞結果,其中,任意一個所述候選分詞結果中的所述候選分詞總和構成所述待分詞文本;
結果確定模塊,用于根據獲得的所述候選分詞結果,確定目標分詞結果。
第三方面,本申請實施例提供一種電子設備,包括處理器和存儲器,所述存儲器存儲有能夠被所述處理器執行的機器可執行指令,所述處理器可執行所述機器可執行指令以實現前述實施方式所述的分詞方法。
第四方面,本申請實施例提供一種可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現如前述實施方式所述的分詞方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海喜馬拉雅科技有限公司,未經上海喜馬拉雅科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210401923.2/2.html,轉載請聲明來源鉆瓜專利網。





