[發明專利]語言文本的分詞方法和系統有效
| 申請號: | 201610225943.3 | 申請日: | 2016-04-12 |
| 公開(公告)號: | CN107291684B | 公開(公告)日: | 2021-02-09 |
| 發明(設計)人: | 陳曉;李航 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06K9/62 |
| 代理公司: | 北京龍雙利達知識產權代理有限公司 11329 | 代理人: | 王君;張欣 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 文本 分詞 方法 系統 | ||
本發明實施例提供一種語言文本的分詞方法和系統,該方法包括:獲取待處理的第一語言文本和可信度閾值;采用第一分詞方式,對第一語言文本進行分詞,得到第一詞邊界集合;根據可信度閾值,將第一詞邊界集合劃分成可信的第二詞邊界集合和不可信的第三詞邊界集合;根據第三詞邊界集合,從第一語言文本中選取第二語言文本,第二語言文本包括第三詞邊界集合中的每個詞邊界對應的詞;采用第二分詞方式,對第二語言文本進行分詞,得到第四詞邊界集合;將第二詞邊界集合和第四詞邊界集合確定為第一語言文本的分詞結果。通過調整可信度閾值的大小,能夠靈活調整第一語言文本所需的分詞精度,從而能夠適應對分詞精度有不同要求的多種應用場景。
技術領域
本發明實施例涉及自然語言處理領域,并且更為具體地,涉及一種語言文本的分詞方法和系統。
背景技術
分詞是自然語言處理的基本問題之一。所有無詞邊界標記的語言(如:漢語、日語、阿拉伯語等)都面臨分詞問題。分詞系統在信息檢索、機器翻譯、問答系統等領域都有著廣泛的應用。
不同的應用對于分詞系統的輸出有著不同的要求。例如,信息檢索系統對分詞的速度和一致性要求較高。但信息檢索系統對分詞的正確性要求相對較低,如對未登錄詞(未被分詞系統收錄的詞)識別率要求較低。而在機器翻譯系統中,對分詞的正確性要求較高,而對分詞的一致性的要求則相對較低。例如,字串“姜文遠”是一個未登錄詞,在信息檢索應用中,如果分詞系統沒有將“姜文遠”切成一個詞,而是將其切分為“姜”和“文遠”兩個詞,只要分詞系統保證文檔中的所有的“姜文遠”的切分方式保持一致,信息檢索系統就能夠檢索出相關文檔。相比而言,在機器翻譯系統中,如果字串“姜文遠”被切分為“姜”和“文遠”,那么“姜”字就有可能被錯誤的翻譯成英文單詞ginger,導致機器翻譯系統的翻譯結果不準確。
目前的分詞系統都只能滿足某一種特定應用的需要,難以在不用的應用場景下復用。考慮到行業內有一些公司和機構需要在幾種不同的應用場景下使用分詞系統,它們通常的解決方案是為不同的應用訂制不同的分詞系統。這種方式會導致資源的浪費和系統維護的困難。
發明內容
本申請提供一種語言文本的分詞方法和系統,能夠適應多種應用場景對分詞系統的不同需求。
第一方面,提供一種語言文本的分詞方法,包括:獲取待處理的第一語言文本和可信度閾值,所述可信度閾值用于指示所述第一語言文本所需的分詞精度;采用第一分詞方式,對所述第一語言文本進行分詞,得到第一詞邊界集合;根據所述可信度閾值,將所述第一詞邊界集合劃分成可信的第二詞邊界集合和不可信的第三詞邊界集合;根據所述第三詞邊界集合,從所述第一語言文本中選取第二語言文本,所述第二語言文本包括所述第三詞邊界集合中的每個詞邊界對應的詞;采用第二分詞方式,對所述第二語言文本進行分詞,得到第四詞邊界集合,其中,所述第二分詞方式的分詞精度高于所述第一分詞方式的分詞精度;將所述第二詞邊界集合和所述第四詞邊界集合確定為所述第一語言文本的分詞結果。
通過調整可信度閾值的大小,能夠靈活調整第一語言文本所需的分詞精度,從而能夠適應對分詞精度有不同要求的多種應用場景。例如,針對分詞精度要求較高的場景,用戶可以輸入較低的可信度閾值;針對分詞精度要求較低的場景,用戶可以輸入較高的可信度閾值。
結合第一方面,在第一方面的第一種實現方式中,所述根據所述可信度閾值,將所述第一詞邊界集合劃分成可信的第二詞邊界集合和不可信的第三詞邊界集合,包括:從所述第一詞邊界集合中的每個詞邊界的上下文中選取所述每個詞邊界對應的至少一個詞;提取所述每個詞邊界對應的至少一個詞的特征;根據所述每個詞邊界對應的至少一個詞的特征,通過預先訓練得到的分類器,確定所述每個詞邊界在所述上下文中的可信度;將所述第一詞邊界集合中的可信度大于所述可信度閾值的詞邊界添加至所述第二詞邊界集合;將所述第一詞邊界集合中的可信度小于或等于所述可信度閾值的詞邊界添加至所述第三詞邊界集合。
通過預先訓練得到的分類器,能夠實現第一詞邊界集合的快速分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610225943.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種拼寫檢查方法及裝置
- 下一篇:語義識別方法和語義識別系統





