[發明專利]一種中文分詞方法及裝置在審
| 申請號: | 201610021175.X | 申請日: | 2016-01-13 |
| 公開(公告)號: | CN106970902A | 公開(公告)日: | 2017-07-21 |
| 發明(設計)人: | 曹志明 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙)11348 | 代理人: | 王偉鋒,劉鐵生 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 分詞 方法 裝置 | ||
技術領域
本發明涉及文本處理領域,尤其涉及一種中文分詞方法及裝置。
背景技術
中文分詞是指將一個語句中的漢字序列拆分成多個單獨的詞語,而分詞就是將連續的字序列按照特定的規則重新組合成詞序列的過程。
目前,通常是按照自然詞語對語句進行分詞。例如,“蘭州拉面”分詞后的結果為“蘭州”、“拉面”,雖然分詞后的兩個詞均符合中文邏輯,但是“蘭州”、“拉面”并不能體現特定語境下的中文含義,導致對語句進行分詞的精度較低。
發明內容
有鑒于此,本發明實施例提供一種中文分詞方法及裝置,主要目的是提高對語句進行中文分詞的精度。
借由上述技術方案,本發明提供的一種中文分詞方法,包括:
獲取待分詞的語句;
提取所述語句中與預置數據庫中詞語匹配的詞語;
根據自然語句對所述提取詞語后的語句進行分詞。
借由上述技術方案,本發明提供的一種中文分詞裝置,包括:
獲取單元,用于獲取待分詞的語句;
提取單元,用于提取所述語句中與預置數據庫中詞語匹配的詞語;
分詞單元,用于根據自然語句對所述提取詞語后的語句進行分詞。
借由上述技術方案,本發明實施例提供的技術方案至少具有下列優點:
本發明實施例提供的一種中文分詞方法及裝置,首先獲取待分詞的語句,然后提取所述語句中與預置數據庫中詞語匹配的詞語,最后根據自然語句對所述提取詞語后的語句進行分詞。與目前對語句進行中文分詞時,按照自然詞語進行中文分詞相比,本發明通過提取語句中與預置數據庫中 詞語匹配的詞語,然后根據自然語句對提取詞語后的語句進行分詞,避免將特定語境下的詞語進行分詞,分詞為不符合語境的自然詞語,從而提高對語句進行中文分詞的精度。
上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。
附圖說明
通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1示出了發明實施例提供的一種中文分詞方法的流程圖;
圖2示出了發明實施例提供的另一種中文分詞方法的流程圖;
圖3示出了發明實施例提供的一種中文分詞裝置的方框圖;
圖4示出了發明實施例提供的另一種中文分詞裝置的方框圖。
具體實施方式
下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。
本發明實施例提供一種中文分詞方法,如圖1所示,所述方法包括:
101、獲取待分詞的語句。
其中,所述待分詞語句可以為以句號為結束符的一個完整句子。
102、提取所述語句中與預置數據庫中詞語匹配的詞語。
其中,所述預置數據庫中保存有符合不同語境的不同類別的多個詞語集。例如,預置數據庫中保存有飲食類別的詞語集{蘭州拉面、東北燉菜、重慶火鍋},語句為“我喜歡吃蘭州拉面”,則提取語句中與預置數據庫中 的“蘭州拉面”匹配的“蘭州拉面”。
103、根據自然語句對所述提取詞語后的語句進行分詞。
其中,所述根據自然語句進行分詞為按照基本的名詞、動詞、形容詞、副詞、特有名詞等對句子進行分詞。例如,“糖醋排骨的制作材料需要排骨”根據自然分詞對提取“糖醋排骨”后的語句進行分詞,為“的/制作/材料/需要/排骨”。
對于本發明實施例,具體的應用場景可以如下所示,但不限于此,包括:獲取待分詞語句為“我今天中午吃的是重慶火鍋”,預置數據庫中保存有飲食類別的詞語集{蘭州拉面、東北燉菜、重慶火鍋},根據自然語句對提取“重慶火鍋”后的語句進行分詞,為“我/今天/中午/吃/的/是”。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610021175.X/2.html,轉載請聲明來源鉆瓜專利網。





