[發明專利]一種計算機拆分漢語句子的方法有效

申請號：	201410818409.4	申請日：	2014-12-25
公開（公告）號：	CN104598441B	公開（公告）日：	2019-06-28
發明（設計）人：	牟孝金;洪紫洲;李維良	申請（專利權）人：	上海科閱信息技術有限公司
主分類號：	G06F17/27	分類號：	G06F17/27
代理公司：	上海宏京知識產權代理事務所(普通合伙) 31297	代理人：	鄧文武
地址：	200233 上海市***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	句子漢語基礎數據庫分類處理詞庫詞性化學元素分析計算機軟件單個漢字基礎保證句子分析匹配比對順序原則優先原則重新組合短語計算機運算量組詞數據庫漢字分析
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種計算機拆分漢語句子的方法,其包括以下步驟：步驟S1，建立基礎數據庫；所述基礎數據庫包括基礎詞庫和可以判斷單個漢字之間相互組合成詞的優先順序原則的漢字組詞優先原則判斷數據庫；步驟S2，將需要被拆分的漢語句子與步驟S1中建立的基礎詞庫進行匹配比對，將需要被拆分的漢語句子拆分成詞；步驟S3，將步驟S2中拆分得到的詞進行詞性分類處理；步驟S4，對詞性分類處理后的詞進行重新組合成漢語短語；即完成對被拆漢語句子的拆分。本發明將通過與化學元素分析類似的方法來分析句子，通過代碼簡單、運算量小的計算機軟件實現，對整個漢語句子進行準確、快速的拆分，為漢語句子分析提供有效的基礎保證。

技術領域

本發明屬于計算機技術領域，尤其涉及一種計算機拆分漢語句子的方法。

背景技術

現代漢語句子是語言表達和信息交流的主要工具，而在計算機軟件領域中，漢語句子的拆分一直是句子分析中的重點和難點。漢語句子的基本組成元素是單個漢字，而表達漢語基本意思的基本單位則是由若干個漢字組成的詞，所以要對整個漢語句子進行分析，首先要能夠對句子進行基本的漢字詞拆分。由于單個的漢字大多具有多個意思，與不同的漢字組合在一起又構成了意思差別很大的不同的詞，每個詞也可能具有多重意思，因此，這給漢語句子的正確拆分帶來了相當大的難度。

目前現有的句子拆分方法有很多，基本上都是基于詞庫檢索遍歷算法，有些還加上歧義解決算法等。這些方法在計算機軟件實現時都普遍存算法復雜、運算量大，以及多義字詞拆分不準確等缺點。

發明內容

為了解決現有技術中存在的上述問題，本發明提供一種將化學領域中的一些概念引入到漢語句子分析中，通過與化學元素分析類似的方法來分析句子，通過代碼簡單、運算量小的計算機軟件實現對整個漢語句子進行準確、快速的拆分，為漢語句子分析提供有效基礎保證的計算機拆分漢語句子的方法。

為實現上述發明目的，本發明提供的技術方案為：一種計算機拆分漢語句子的方法,其包括以下步驟：

步驟S1，建立基礎數據庫；所述基礎數據庫包括基礎詞庫和可以判斷單個漢字之間相互組合成詞的優先順序原則的漢字組詞優先原則判斷數據庫；

步驟S2，將需要被拆分的漢語句子與步驟S1中建立的基礎詞庫進行匹配比對，將需要被拆分的漢語句子拆分成詞；

步驟S3，將步驟S2中拆分得到的詞進行詞性分類處理；

步驟S4，對經過詞性分類處理后的詞進行重新組合，形成漢語短語；即完成對被拆漢語句子的拆分。

所述步驟S1中建立的基礎詞庫包括漢字詞、英文字母、數字和其它漢語語句中使用的通用字符。

所述基礎詞庫中的漢字詞包括日常用語、詩詞、網絡常用詞和特殊名稱用詞。

所述基礎詞庫存儲在計算機內的代碼為unicode編碼或者漢字國際GB碼。

所述漢字組詞優先原則判斷數據庫是根據日常生活中漢字的實際使用頻率和使用慣例通過窮舉法進行歸納總結而得出的優先組合詞組。