[發明專利]一種計算機拆分漢語句子的方法有效
| 申請號: | 201410818409.4 | 申請日: | 2014-12-25 |
| 公開(公告)號: | CN104598441B | 公開(公告)日: | 2019-06-28 |
| 發明(設計)人: | 牟孝金;洪紫洲;李維良 | 申請(專利權)人: | 上海科閱信息技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 上海宏京知識產權代理事務所(普通合伙) 31297 | 代理人: | 鄧文武 |
| 地址: | 200233 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 句子 漢語 基礎數據庫 分類處理 詞庫 詞性 化學元素分析 計算機軟件 單個漢字 基礎保證 句子分析 匹配比對 順序原則 優先原則 重新組合 短語 計算機 運算量 組詞 數據庫 漢字 分析 | ||
本發明公開了一種計算機拆分漢語句子的方法,其包括以下步驟:步驟S1,建立基礎數據庫;所述基礎數據庫包括基礎詞庫和可以判斷單個漢字之間相互組合成詞的優先順序原則的漢字組詞優先原則判斷數據庫;步驟S2,將需要被拆分的漢語句子與步驟S1中建立的基礎詞庫進行匹配比對,將需要被拆分的漢語句子拆分成詞;步驟S3,將步驟S2中拆分得到的詞進行詞性分類處理;步驟S4,對詞性分類處理后的詞進行重新組合成漢語短語;即完成對被拆漢語句子的拆分。本發明將通過與化學元素分析類似的方法來分析句子,通過代碼簡單、運算量小的計算機軟件實現,對整個漢語句子進行準確、快速的拆分,為漢語句子分析提供有效的基礎保證。
技術領域
本發明屬于計算機技術領域,尤其涉及一種計算機拆分漢語句子的方法。
背景技術
現代漢語句子是語言表達和信息交流的主要工具,而在計算機軟件領域中,漢語句子的拆分一直是句子分析中的重點和難點。漢語句子的基本組成元素是單個漢字,而表達漢語基本意思的基本單位則是由若干個漢字組成的詞,所以要對整個漢語句子進行分析,首先要能夠對句子進行基本的漢字詞拆分。由于單個的漢字大多具有多個意思,與不同的漢字組合在一起又構成了意思差別很大的不同的詞,每個詞也可能具有多重意思,因此,這給漢語句子的正確拆分帶來了相當大的難度。
目前現有的句子拆分方法有很多,基本上都是基于詞庫檢索遍歷算法,有些還加上歧義解決算法等。這些方法在計算機軟件實現時都普遍存算法復雜、運算量大,以及多義字詞拆分不準確等缺點。
發明內容
為了解決現有技術中存在的上述問題,本發明提供一種將化學領域中的一些概念引入到漢語句子分析中,通過與化學元素分析類似的方法來分析句子,通過代碼簡單、運算量小的計算機軟件實現對整個漢語句子進行準確、快速的拆分,為漢語句子分析提供有效基礎保證的計算機拆分漢語句子的方法。
為實現上述發明目的,本發明提供的技術方案為:一種計算機拆分漢語句子的方法,其包括以下步驟:
步驟S1,建立基礎數據庫;所述基礎數據庫包括基礎詞庫和可以判斷單個漢字之間相互組合成詞的優先順序原則的漢字組詞優先原則判斷數據庫;
步驟S2,將需要被拆分的漢語句子與步驟S1中建立的基礎詞庫進行匹配比對,將需要被拆分的漢語句子拆分成詞;
步驟S3,將步驟S2中拆分得到的詞進行詞性分類處理;
步驟S4,對經過詞性分類處理后的詞進行重新組合,形成漢語短語;即完成對被拆漢語句子的拆分。
所述步驟S1中建立的基礎詞庫包括漢字詞、英文字母、數字和其它漢語語句中使用的通用字符。
所述基礎詞庫中的漢字詞包括日常用語、詩詞、網絡常用詞和特殊名稱用詞。
所述基礎詞庫存儲在計算機內的代碼為unicode編碼或者漢字國際GB碼。
所述漢字組詞優先原則判斷數據庫是根據日常生活中漢字的實際使用頻率和使用慣例通過窮舉法進行歸納總結而得出的優先組合詞組。
所述步驟S1中建立的基礎詞庫中詞的尺度范圍為1至9;其中基礎詞庫中漢字詞的尺度定義為漢字詞中漢字的個數,英文字母的尺度定義為1,數字的尺度定義為1,其它漢語語句中使用的通用字符也定義為1。
所述步驟S2中將需要被拆分的漢語句子拆分成詞的具體過程如下:
步驟S21,首先,依次使用基礎詞庫中尺度為9至1的漢字詞遍歷需要被拆分的漢語句子;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海科閱信息技術有限公司,未經上海科閱信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410818409.4/2.html,轉載請聲明來源鉆瓜專利網。





