[發明專利]一種分詞方法、裝置、電子設備及存儲介質有效
| 申請號: | 201810779117.2 | 申請日: | 2018-07-16 |
| 公開(公告)號: | CN110728141B | 公開(公告)日: | 2023-09-19 |
| 發明(設計)人: | 唐海慶;童超;胡小克;梁俊 | 申請(專利權)人: | 中移(蘇州)軟件技術有限公司;中國移動通信集團有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 215163 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分詞 方法 裝置 電子設備 存儲 介質 | ||
本發明公開了一種分詞方法、裝置、電子設備及存儲介質,該方法包括:將分詞語料輸入到預先保存的基線分詞模型中,基于所述基線分詞模型,確定所述分詞語料的初步分詞結果;將所述初步分詞結果輸入到預先訓練完成的詞切分模型中,基于所述詞切分模型,輸出所述初步分詞結果的切分結果,其中所述切分結果包括切分單元,所述切分單元包括切分字符和/或切分字符集合;按照預設的合并規則,合并所述切分單元,并確定所述分詞語料的最終分詞結果。本發明中對現有的基線分詞模型不進行改變,保證了分詞模型的收斂速度,提高了分詞效率,并且對基線分詞模型的分詞結果進行了更正,因此提高了分詞結果的準確性。
技術領域
本發明涉及分詞處理技術領域,尤其涉及一種分詞方法、裝置、電子設備及存儲介質。
背景技術
分詞指的是將一個語言字的序列切分成一個個單獨的詞。分詞技術是文本挖掘的基礎,對于輸入的一段文字,成功地進行分詞,可以達到電腦自動識別詞句含義的效果,實現自然語音的處理。
常用的分詞模型一般為基于統計的分詞模型或基于詞典的分詞模型。這兩種分詞模型的泛化能力一般比較差,即使具有一定泛化能力的基于統計的有監督分詞模型,由于人工標注語料較少,因此該分詞模型較小,容易導致泛化錯誤。因此現有技術中一般使用泛化特征向量,重新訓練分詞模型的方法來獲得具有一定泛化能力的分詞模型,如在訓練分詞模型時通過神經網絡得到泛化特征的模型參數,結合分詞模型的模型參數對訓練語料進行分詞處理,得到分詞結果并修正分詞模型的模型參數和神經網絡參數;或者現有技術中使用基于分詞錯誤反饋來改進分詞的方法,如當分詞模型得到分詞結果后,用戶可以靈活地對分詞結果中存在分詞邊界錯誤的分詞進行修正,根據修正分詞結果重新對分詞模型進行訓練。
但是上述方法中使用基于分詞錯誤反饋來改進分詞的方法時,重新訓練后的分詞模型仍不具有泛化能力,因此使用該重新訓練后的分詞模型進行分詞得到的分詞結果的準確性難以保證,使用具有一定泛化能力的分詞模型來改進分詞的方法時,多次重新訓練模型導致分詞模型變復雜,因此在使用該重新訓練后的分詞模型進行訓練時收斂速度變慢,導致分詞的效率降低。綜上現有技術中對已有的分詞模型重新進行了訓練,在使用重新訓練后得到的分詞模型進行分詞時分詞結果準確性低以及效率降低。
發明內容
本發明提供了一種分詞方法、裝置、電子設備及存儲介質,用以解決現有技術中使用重新訓練后得到的分詞模型進行分詞時分詞結果準確性低以及效率低的問題。
本發明提供了一種分詞方法,應用于電子設備,該方法包括:
將分詞語料輸入到預先保存的基線分詞模型中,基于所述基線分詞模型,確定所述分詞語料的初步分詞結果;
將所述初步分詞結果輸入到預先訓練完成的詞切分模型中,基于所述詞切分模型,輸出所述初步分詞結果的切分結果,其中所述切分結果包括至少兩個切分單元;
按照預設的合并規則,合并所述至少兩個切分單元,并確定所述分詞語料的最終分詞結果。
進一步地,所述詞切分模型包括字節對編碼BPE模型。
進一步地,所述按照預設的合并規則,合并所述至少兩個切分單元之前,所述方法還包括:
將所述切分結果輸入到預先訓練完成的標注器中,基于所述標注器,輸出所述切分結果的標注序列,其中所述標注序列中包括所述至少兩個切分單元中每個切分單元的詞標注;
所述按照預設的合并規則,合并所述至少兩個切分單元包括:
根據所述每個切分單元的詞標注及預設的合并規則,合并所述每個切分單元。
進一步地,所述根據所述每個切分單元的詞標注及預設的合并規則,合并所述每個切分單元包括:
順序讀取所述每個切分單元及所述每個切分單元的詞標注,采用下述方式進行合并,直至所述每個切分單元合并完成:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中移(蘇州)軟件技術有限公司;中國移動通信集團有限公司,未經中移(蘇州)軟件技術有限公司;中國移動通信集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810779117.2/2.html,轉載請聲明來源鉆瓜專利網。





