[發明專利]分詞語種的識別方法及裝置在審
| 申請號: | 202010002031.6 | 申請日: | 2020-01-02 |
| 公開(公告)號: | CN113065333A | 公開(公告)日: | 2021-07-02 |
| 發明(設計)人: | 李辰;包祖貽;劉恒友;徐光偉;李林琳 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/289;G06F16/35 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司 11134 | 代理人: | 張文華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分詞 語種 識別 方法 裝置 | ||
本申請公開了一種分詞語種的識別方法及裝置。其中,該方法包括:獲取待檢測文本,其中,待檢測文本中至少包括兩種不同語種的語料;將待檢測文本的多個分詞輸入混合語言模型進行分析,得到待檢測文本中每個分詞至少一個分詞的第一評分指標,其中,第一評分指標用于指示每個分詞至少一個分詞屬于目標語種的概率;基于第一評分指標判斷每個分詞至少一個分詞屬于第一語種的概率是否大于至少一個分詞屬于第二語種的概率;確定待檢測文本中至少一個分詞的前一個分詞所屬的語種;依據判斷結果以及前一個分詞所屬的語種確定至少一個分詞的語言模型;基于確定的語言模型確定至少一個分詞的第二評分指標。
技術領域
本申請涉及智能識別領域,具體而言,涉及一種分詞語種的識別方法及裝置。
背景技術
隨著互聯網的發展,全球的數據和信息融合,語言表達已不局限于一種語言,比如以一種主要語言和其他輔助語言(中文為主,英文術語為輔),或者兩種語言緊密結合(印度語與英語)。在口語表達中,中國人也越來越多融合了英文的詞匯、短語、整句引用的表達,這給語言模型建模提出了新的挑戰。對多語種的混合,也叫語碼轉換或者語碼混合,成為自然語言處理一個重要的研究問題。
相關技術中,采用對一種或者多種語言之間進行翻譯的機器翻譯組件,生成能夠接受使用一種或者多種語言的語言學輸入的過程。其依賴已有的特定語向的翻譯模型,將輸入從其語言翻譯成錨語言。該方法依賴翻譯模型,需要預先使用平行語料訓練翻譯模型,無法在沒有平行語料的語向上使用。同時因為翻譯模型和目標語言建模的數據存在差異,該方法處理新詞匯(翻譯模型無法翻譯的詞匯)和多義詞匯(一個詞語在不同上下文下有多種含義,例如蘋果是一種水果還是一家公司)的效率較低。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本申請實施例提供了一種分詞語種的識別方法及裝置,以至少解決現有的翻譯模型識別新詞匯以及多義詞匯的準確度較低的技術問題。
根據本申請實施例的一個方面,提供了一種分詞語種的識別方法,包括:獲取待檢測文本,其中,待檢測文本中至少包括兩種不同語種的語料;將待檢測文本的多個分詞輸入混合語言模型進行分析,得到待檢測文本中至少一個分詞的第一評分指標,其中,第一評分指標用于計算至少一個分詞屬于目標語種的概率。
基于第一評分指標判斷至少一個分詞屬于第一語種的概率是否大于至少一個分詞屬于第二語種的概率,其中,第二語種包括除第一語種之外的任意一個語種;確定待檢測文本中指定分詞的所屬的語種,其中,指定分詞包括待檢測文本中與至少一個分詞不同的分詞;依據判斷結果以及指定分詞所屬的語種確定至少一個分詞的語言模型;基于確定的語言模型確定至少一個分詞的第二評分指標,其中,第二評分指標用于指示至少一個分詞屬于目標語種的概率;并基于第二評分指標確定至少一個分詞所屬的語種。
根據本申請實施例的另一個方面,提供了一種分詞語種的識別方法,包括:獲取待檢測文本,其中,待檢測文本中至少包括兩種不同語種的語料;將待檢測文本的多個分詞輸入混合語言模型進行分析,得到待檢測文本中至少一個分詞的第一評分指標,其中,第一評分指標用于指示至少一個分詞屬于目標語種的概率;基于第一評分指標確定至少一個分詞的語言模型;基于確定的語言模型對至少一個分詞進行識別。
根據本申請實施例的另一方面,還提供了一種分詞語種的識別裝置,包括:獲取模塊,用于獲取待檢測文本,其中,待檢測文本中至少包括兩種不同語種的語料;分析模塊,用于將待檢測文本的多個分詞輸入混合語言模型進行分析,得到待檢測文本中至少一個分詞的第一評分指標,其中,第一評分指標用于指示至少一個分詞屬于目標語種的概率;判斷模塊,用于基于第一評分指標判斷至少一個分詞屬于第一語種的概率是否大于至少一個分詞屬于第二語種的概率;第一確定模塊,用于確定待檢測文本中至少一個分詞的前一個分詞所屬的語種;第二確定模塊,依據判斷結果以及前一個分詞所屬的語種確定至少一個分詞的語言模型;第三確定模塊,基于確定的語言模型確定至少一個分詞的第二評分指標。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010002031.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:管理虛擬鏈路聚合信道
- 下一篇:一種同步選源端口狀態測試方法及測試設備





