[發明專利]文本切詞方法、裝置、設備和介質有效
| 申請號: | 202010037943.7 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111274353B | 公開(公告)日: | 2023-08-01 |
| 發明(設計)人: | 馬東民;徐犇;李秀健 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司;上海小度技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/289 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 方法 裝置 設備 介質 | ||
本申請實施例公開了一種文本切詞方法、裝置、設備和介質,涉及數據處理技術領域,尤其涉及智能搜索技術。具體實現方案為:將待切分文本劃分為至少兩層字符片段組合;其中,任一層字符片段為上一層字符片段的子字符片段,和/或為下一層字符片段的父字符片段;基于所述至少兩層字符片段組合,根據目標詞粒度,對所述待切分文本進行切分。本申請實施例提供了一種文本切詞方法、裝置、設備和介質,實現了對文本的不同詞粒度的切分。
技術領域
本申請實施例涉及數據處理技術領域,尤其涉及智能搜索技術。具體地,本申請實施例提供了一種文本切詞方法、裝置、設備和介質。
背景技術
在自然語言處理中,切詞是一項重要的基礎任務。切詞準確率直接影響后續的其它任務,如分類、序列標注、檢索、排序等。
現有的切詞方案主要是通過匹配詞表,根據匹配結果進行詞語的切分。
然而上述方案存在只能對待切分文本進行一種詞粒度的切分。
發明內容
本申請實施例提供了一種文本切詞方法、裝置、設備和介質,以實現對文本的不同詞粒度切分。
本申請實施例提供了一種文本切詞方法,所述方法包括:
將待切分文本劃分為至少兩層字符片段組合;其中,任一層字符片段為上一層字符片段的子字符片段,和/或為下一層字符片段的父字符片段;
基于所述至少兩層字符片段組合,根據目標詞粒度,對所述待切分文本進行切分。
本申請實施例通過將待切分文本劃分為至少兩層字符片段組合;基于所述至少兩層字符片段組合,根據目標詞粒度,對所述待切分文本進行切分。因為每層字符片段組合中的字符片段的長度不同,所以本申請實施例可以基于劃分的至少兩層字符片段組合實現對待切分文本的不同詞粒度的切分。
進一步地,所述將待切分文本劃分為至少兩層字符片段組合,包括:
從上一層字符片段中提取至少一種長度的候選字符片段;其中,所述上一層字符片段屬于上一層字符片段組合;
組合提取的候選字符片段,得到候選字符片段組合;
根據所述候選字符片段間的重疊關系,以及所述候選字符片段的歷史使用信息,從所述候選字符片段組合中確定本層字符片段組合,其中所述本層字符片段組合包括至少一個本層字符片段。
基于該技術特征,本申請實施例通過提取至少一種長度的候選字符片段;組合提取的候選字符片段;根據所述候選字符片段間的重疊關系,以及所述候選字符片段的歷史使用信息,從候選字符片段組合中確定本層字符片段組合,從而實現對待切分文本的各層字符片段組合的劃分。
此外,因為本申請實施例根據所述候選字符片段間的重疊關系,以及所述候選字符片段的歷史使用信息確定的各層字符片段組合,該過程不依賴詞表,所以本申請實施例基于各層字符片段組合,可以實現對詞表中未記錄詞語的切分。
進一步地,所述根據所述候選字符片段間的重疊關系,以及所述候選字符片段的歷史使用信息,從所述候選字符片段組合中確定本層字符片段組合,包括:
從所述候選字符片段組合中過濾存在重疊的候選字符片段組合,得到目標字符片段組合;
根據所述目標字符片段組合中包括所述候選字符片段的數量和所述候選字符片段的歷史使用信息,從所述目標字符片段組合中確定所述本層字符片段組合。
基于該技術特征,本申請實施例通過從所述候選字符片段組合中過濾存在重疊的候選字符片段組合,得到目標字符片段組合;根據所述目標字符片段組合中包括所述候選字符片段的數量和所述候選字符片段的歷史使用信息,從所述目標字符片段組合中確定所述本層字符片段組合,從而實現依據所述候選字符片段間的重疊關系,以及所述候選字符片段的歷史使用信息,對本層字符片段組合的確定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司;上海小度技術有限公司,未經百度在線網絡技術(北京)有限公司;上海小度技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010037943.7/2.html,轉載請聲明來源鉆瓜專利網。





