[發明專利]分詞方法和裝置、用于分詞的裝置有效

申請號：	201611030865.8	申請日：	2016-11-16
公開（公告）號：	CN108073566B	公開（公告）日：	2022-01-18
發明（設計）人：	姜里羊;王宇光;陳偉;程善伯	申請（專利權）人：	北京搜狗科技發展有限公司
主分類號：	G06F40/284	分類號：	G06F40/284;G06F40/242;G06F40/40
代理公司：	北京潤澤恒知識產權代理有限公司 11319	代理人：	劉祥景
地址：	100084 北京市海淀區中關***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	分詞方法裝置用于
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明實施例提供了一種分詞方法和裝置、以及一種用于分詞的裝置，其中的方法具體包括：獲取待分詞文本對應的分詞序列；從所述分詞序列中獲取未存在于預置詞典中的目標詞匯；所述預置詞典用于存儲詞匯；依據所述預置詞典對所述目標詞匯進行切分處理，以得到對應的切分結果。本發明實施例能夠將機器翻譯裝置無法翻譯的詞匯切開，因此能夠提高分詞結果的準確率，進而提高翻譯結果的準確率。

技術領域

本發明涉及自然語言處理技術領域，特別是涉及一種分詞方法和裝置、以及一種用于分詞的裝置。

背景技術

分詞技術為自然語言處理領域中的一項重要的基礎技術。所謂分詞，就是將句子切分成一個一個單獨的詞，是將連續的句子按照一定的規范重新組合成詞序列的過程。以中文分詞技術為例，分詞技術的目標就是將一句話切分為一個一個單獨的中文詞語。而將句子切分為單獨的詞，是實現機器識別人類語言的第一步，因此分詞技術被廣泛應用于文語轉換、機器翻譯、語音識別、文本摘要、文本檢索等自然語言處理的應用分支中。

機器翻譯技術是指利用計算機將一種自然語言(源語言)轉換為另一種自然語言(目標語言)的過程。傳統的機器翻譯技術通常以詞為粒度進行翻譯，也即，在進行機器翻譯前，需要將用戶輸入的源文本或者通過語音識別得到的源文本進行分詞，再依據分詞結果進行機器翻譯；因此，分詞結果的準確率對機器翻譯質量有著至關重要的影響，分詞結果的準確率高低將直接影響機器翻譯質量的高低。

現有的分詞方法具體可以包括：基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法等。然而，現有的分詞方法均無法做到100％的準確率，也即，現有的分詞方法得到的分詞結果中將有欠準確的詞，該欠準確的詞將會影響機器翻譯指令。以源文本“左邊的詞大家都看到了嗎”為例，現有的分詞方法將該源文本切分為：“左邊”、“的”、“詞大家”、“都”、“看到”、“了”、“嗎”，其中，“詞大家”為欠準確的詞，機器翻譯裝置以“詞大家”為粒度進行翻譯，將得到欠準確的翻譯結果。

發明內容

鑒于上述問題，提出了本發明實施例以便提供一種克服上述問題或者至少部分地解決上述問題的分詞方法、分詞裝置、及用于分詞的裝置，本發明實施例能夠將機器翻譯裝置無法翻譯的詞匯切開，因此能夠提高分詞結果的準確率，進而提高翻譯結果的準確率。

為了解決上述問題，本發明公開了一種分詞方法，包括：

獲取待分詞文本對應的分詞序列；

從所述分詞序列中獲取未存在于預置詞典中的目標詞匯；所述預置詞典用于存儲詞匯；

依據所述預置詞典對所述目標詞匯進行切分處理，以得到對應的切分結果。

可選地，所述依據所述預置詞典對所述目標詞匯進行切分處理的步驟，包括：

從所述預置詞典中獲取所述目標詞匯的拼接所需的最小數量的詞匯，將所述最小數量的詞匯作為所述目標詞匯對應的切分結果。

可選地，所述從所述預置詞典中獲取所述目標詞匯的拼接所需的最小數量的詞匯的步驟，包括：

利用動態規劃算法，從所述預置詞典中獲取所述目標詞匯的拼接所需的最小數量的詞匯。

可選地，所述利用動態規劃算法，從所述預置詞典中獲取所述目標詞匯的拼接所需的最小數量的詞匯的步驟，包括：

獲取所述目標詞匯對應的字符序列集合；