[發明專利]分詞語種的識別方法及裝置在審
| 申請號: | 202010002031.6 | 申請日: | 2020-01-02 |
| 公開(公告)號: | CN113065333A | 公開(公告)日: | 2021-07-02 |
| 發明(設計)人: | 李辰;包祖貽;劉恒友;徐光偉;李林琳 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/289;G06F16/35 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司 11134 | 代理人: | 張文華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分詞 語種 識別 方法 裝置 | ||
1.一種分詞語種的識別方法,其特征在于,包括:
獲取待檢測文本,其中,所述待檢測文本中至少包括兩種不同語種的語料;
將所述待檢測文本的多個分詞輸入混合語言模型進行分析,得到待檢測文本中至少一個分詞的第一評分指標,其中,所述第一評分指標用于計算所述至少一個分詞屬于目標語種的概率;
基于所述第一評分指標判斷所述至少一個分詞屬于第一語種的概率是否大于所述至少一個分詞屬于第二語種的概率,其中,所述第二語種包括除所述第一語種之外的任意一個語種;
確定所述待檢測文本中指定分詞的所屬的語種,其中,所述指定分詞包括所述待檢測文本中與所述至少一個分詞不同的分詞;
依據判斷結果以及所述指定分詞所屬的語種確定所述至少一個分詞的語言模型;
基于確定的語言模型確定所述至少一個分詞的第二評分指標,其中,所述第二評分指標用于指示所述至少一個分詞屬于目標語種的概率;并基于所述第二評分指標確定所述至少一個分詞所屬的語種。
2.根據權利要求1所述的方法,其特征在于,所述指定分詞包括:所述待檢測文本中所述至少一個分詞的前一個分詞。
3.根據權利要求1所述的方法,其特征在于,將所述待檢測文本的多個分詞輸入混合語言模型進行分析之前,所述方法還包括:
獲取多個語種的單語語料;
獲取多語種的目標混合語料;
采用所述目標混合語料中的單語語料訓練單語語言模型,得到與所述第一語種對應的第一單語語言模型和與所述第二語種對應的第二單語語言模型;采用所述目標混合語料對預設混合語言模型進行訓練,得到所述混合語言模型,其中,所述目標混合語料包括所述第一語種的語料和第二語種的語料。
4.根據權利要求3所述的方法,其特征在于,獲取多語種的目標混合語料,包括:
確定所述多個語種的單語語料中指定字符占比大于預設閾值的目標單語語料,其中,所述指定指定字符占比為所述多個語種的單語語料中與第一語種不同的第二語種的字符在所述單語語料中的比例,其中,所述第一語種的語料在所述單語語料中的比例大于所述第二語種的字符在所述單語語料中的比例;
從所述目標單語語料中提取多語種部分的語料,并基于所述多語種部分的語料確定所述目標混合語料,其中,所述多語言部分的語料中至少包括多個語種的語料。
5.根據權利要求4所述的方法,其特征在于,基于所述多語種部分的語料確定所述目標混合語料包括:
對所述多語種部分的語料進行分詞處理,得到多個分詞;對所述多個分詞使用字節對編碼算法進行處理,得到高頻子詞;基于所述高頻子詞確定所述多個語種的通用詞表,并將所述通用詞表作為所述目標混合語料。
6.根據權利要求3所述的方法,其特征在于,依據判斷結果以及所述指定分詞所屬的語種確定所述至少一個分詞的語言模型,包括:
在所述指定分詞包括所述待檢測文本中所述至少一個分詞的前一個分詞的情況下,在判斷結果指示所述至少一個分詞屬于第一語種的概率大于屬于第二語種的概率,并且所述至少一個分詞的前一個分詞屬于第一語種時,確定采用所述第一單語語言模型計算所述至少一個分詞的第二評分指標;
在判斷結果指示所述至少一個分詞屬于第一語種的概率大于屬于第二語種的概率,且所述至少一個分詞的前一個分詞屬于第二語種時,確定采用所述第二單語語言模型和所述混合語言模型對所述至少一個分詞的第二評分指標進行計算;
在所述判斷結果指示所述至少一個分詞屬于第一語種的概率小于屬于第二語種的概率,且所述前一個分詞屬于第一語種時,確定采用所述第一單語語言模型和所述混合語言模型對所述至少一個分詞的第二評分指標進行計算;
在所述判斷結果指示所述至少一個分詞屬于第一語種的概率小于屬于第二語種的概率,且所述前一個分詞屬于第二語種時,確定采用所述第二單語語言模型對所述至少一個分詞的第二評分指標進行計算。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010002031.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:管理虛擬鏈路聚合信道
- 下一篇:一種同步選源端口狀態測試方法及測試設備





